post_img

MapReduce高级案例 ①

摘要

[infobox title=”倒排索引案例(多Job串联)”] 有大量的文本(文档、网页),需要建立搜索索引 [successb …

post_img

Apache Parquet 干货分享

摘要

Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 …

post_img

Yarn知识点整理

摘要

1、什么是Yarn 通用资源管理系统和调度平台 2、Yarn特点: 支持多计算框架 资源利用率高,运行成本低,数据共享。 &nbs …