[hide reply_to_this="true"][/hide]
Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Protocol Buffers 等数据模型。Parquet 作为 HDFS 存储格式的事实标准,经常用在离线数仓、OLAP 等场景。本文整理于最近的一次公司内训,主要分四个部分:1、Parquet 简介 2、架构解析 3、基本操作 4、TPC-DS 基准测试介绍 Parquet 简介 第一部分内容介绍了此次 Parquet 分享的技术背景,行存与列存的区别,以及…
分布式的话修改hdfs-site.xml中的dfs.replication workers中的节点等
常见端口汇总: Hadoop: 50070:HDFS WEB UI端口 9870:3.x HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 Zookeeper: 2181 : 客户端连接zookeeper的端口 2888 : zookeeper集群内通讯…
HDFS文件系统的目录基本都属于supergroup用户组,所以就把用户添加到该用户组,即可解决很多权限问题,例如连接Hive却无法操作的创建库、表的问题等 1、在Linux执行如下命令增加supergroup groupadd supergroup 2、将用户增加到supergroup中 usermod -a -G supergroup root 3、同步系统的权限信息到HDFS文件系统 sudo -u hdfs hdfs dfsadmin -refreshUserToGroupsMappings 4、查看属于s…
1、什么是Yarn 通用资源管理系统和调度平台 2、Yarn特点: 支持多计算框架 资源利用率高,运行成本低,数据共享。 3、Yarn的意义: 降低了企业硬件的成本(多个集群变成一个集群),减少了资源的了浪费,运营成本低。 资源指的是什么? CPU 内存 4、Yarn基本组成 ResourceManager :一个集群资源调度的管理者 NodeManager :一个节点资源调度的管理者(集群各个节点资源的工作者) ApplicationMaster : 一个计算任务的管理者 Con…
一、 Hadoop High Availability HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断。 Hadoop1.X版本,NN是HDFS集群的单点故障点,每一个集群只有一…
HBase与MapReduce的集成中使用bulkload的方式将数据直接生成HFile格式时报错