发布于 2020-06-15
摘要
[infobox title=”倒排索引案例(多Job串联)”] 有大量的文本(文档、网页),需要建立搜索索引 [successb …
[infobox title=”倒排索引案例(多Job串联)”] 有大量的文本(文档、网页),需要建立搜索索引 [successb …
Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 …
[infobox title=”前置配置”] nmtui 静态IP配置,host配置 ssh本机免密登录 ssh-keygen s …
HDFS文件系统的目录基本都属于supergroup用户组,所以就把用户添加到该用户组,即可解决很多权限问题,例如连接Hive却无 …
1、什么是Yarn 通用资源管理系统和调度平台 2、Yarn特点: 支持多计算框架 资源利用率高,运行成本低,数据共享。 &nbs …
一、 Hadoop High Availability HA(High Available), 高可用,是保证业务连续性的有效解决 …
[dangerbox title=”flume是什么”] apache Flume 是一个从可以收集例如日志,事件等数据资源,并将 …
[dangerbox title=”1.Sqoop导入数据到HDFS\HIVE报错 Hive exited with status …
一、简介 Apache Sqoop是在Hadoop生基金会提供 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL, …
[successbox title=”背景”] 在Hadoop的MapReduce过程中,每个map task处理完数据后,如果存 …