[hide reply_to_this="true"][/hide]
CDH,全称Cloudera's Distribution, including Apache Hadoop。是Hadoop众多分支中对应中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,提供了Hadoop的核心(可扩展存 储、分布式计算),最为重要的是提供基于web的用户界面。 CDH的优点:版本划分清晰,更新速度快,支持Kerberos安全认证,支持多种安装方式(如Yum、rpm等)。 CDH分为Cloudera Manager管理平台和CDH parcel(parcel包含各种组…
Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Protocol Buffers 等数据模型。Parquet 作为 HDFS 存储格式的事实标准,经常用在离线数仓、OLAP 等场景。本文整理于最近的一次公司内训,主要分四个部分:1、Parquet 简介 2、架构解析 3、基本操作 4、TPC-DS 基准测试介绍 Parquet 简介 第一部分内容介绍了此次 Parquet 分享的技术背景,行存与列存的区别,以及…
org.apache.kylin.engine.mr.exception.MapReduceException: Exception: java.net.ConnectException: Call From node01/192.168.199.171 to node01:10020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop…