post_img

MapReduce高级案例 ①

摘要

[infobox title=”倒排索引案例(多Job串联)”] 有大量的文本(文档、网页),需要建立搜索索引 [successb …

post_img

Apache Parquet 干货分享

摘要

Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 …

post_img

Yarn知识点整理

摘要

1、什么是Yarn 通用资源管理系统和调度平台 2、Yarn特点: 支持多计算框架 资源利用率高,运行成本低,数据共享。 &nbs …

post_img

Hadoop Flume搭建

摘要

[dangerbox title=”flume是什么”] apache Flume 是一个从可以收集例如日志,事件等数据资源,并将 …

post_img

Apache Sqoop搭建

摘要

一、简介 Apache Sqoop是在Hadoop生基金会提供 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL, …