Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Protocol Buffers 等数据模型。Parquet 作为 HDFS 存储格式的事实标准,经常用在离线数仓、OLAP 等场景。本文整理于最近的一次公司内训,主要分四个部分:1、Parquet 简介 2、架构解析 3、基本操作 4、TPC-DS 基准测试介绍 Parquet 简介 第一部分内容介绍了此次 Parquet 分享的技术背景,行存与列存的区别,以及…
分布式的话修改hdfs-site.xml中的dfs.replication workers中的节点等
HDFS文件系统的目录基本都属于supergroup用户组,所以就把用户添加到该用户组,即可解决很多权限问题,例如连接Hive却无法操作的创建库、表的问题等 1、在Linux执行如下命令增加supergroup groupadd supergroup 2、将用户增加到supergroup中 usermod -a -G supergroup root 3、同步系统的权限信息到HDFS文件系统 sudo -u hdfs hdfs dfsadmin -refreshUserToGroupsMappings 4、查看属于s…
1、什么是Yarn 通用资源管理系统和调度平台 2、Yarn特点: 支持多计算框架 资源利用率高,运行成本低,数据共享。 3、Yarn的意义: 降低了企业硬件的成本(多个集群变成一个集群),减少了资源的了浪费,运营成本低。 资源指的是什么? CPU 内存 4、Yarn基本组成 ResourceManager :一个集群资源调度的管理者 NodeManager :一个节点资源调度的管理者(集群各个节点资源的工作者) ApplicationMaster : 一个计算任务的管理者 Con…
一、 Hadoop High Availability HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断。 Hadoop1.X版本,NN是HDFS集群的单点故障点,每一个集群只有一…
一、简介 Apache Sqoop是在Hadoop生基金会提供 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hive 相比,并没有什么高深的理论 Sqoop工作机制: 是将导入或导出命令翻译成mapreduce程序来实现;在翻译出的mapreduce中主要是对inputfor…