Apache Parquet 干货分享

Parquet 是一种面向分析的、通用的列式存储格式，兼容各种数据处理框架比如 Spark、Hive、Impala 等，同时支持 Avro、Thrift、Protocol Buffers 等数据模型。Parquet 作为 HDFS 存储格式的事实标准，经常用在离线数仓、OLAP 等场景。本文整理于最近的一次公司内训，主要分四个部分：1、Parquet 简介

2、架构解析

3、基本操作

4、TPC-DS 基准测试介绍

Parquet 简介

第一部分内容介绍了此次 Parquet 分享的技术背景，行存与列存的区别，以及 Parquet 的特点。

Parquet 在一个项目中重度使用，开发人员对其原理、操作不是很清楚，项目上是使用 Parquet 做离线数仓，计算层使用 Spark SQL 进行离线分析构建企业的标签系统，结果数据落地到 Elasticsearch。

Parquet可以说是一个列式存储系统。关于行存与列存的区别可以简单用下图描述，列存在 IO 方面比行存有很大优势，能够减少扫描数据量。

Parquet 的特点概况的说主要体现在：

列裁剪与谓词下推：列裁剪，意思是只读取需要的列，实现高效的列扫描，减少 IO 操作；谓词下推，可以过滤掉不符合条件的数据，只读取需要的数据，进一步减少 IO 操作。
更高效的压缩与编码：因为同一列的数据类型相同，所以可以针对不同列使用更合适的压缩与编码方式，降低磁盘存储空间。

另外，Parquet也是Spark SQL 的默认数据源，可通过参数spark.sql.sources.default 进行配置。

架构解析

1、技术架构

Parquet 是 Apache 的顶级项目，整体技术架构如下图

Parquet 主要包含以下 5 个主要模块：

parquet-format：定义了所有格式规范，以及由 Thrift 序列化的元数据信息等。
parquet-mr：包括多个实现了读写 Parquet 文件的功能模块，并且提供一些和其它组件适配的工具，例如Hadoop Input/Output Formats、Pig loaders、Hive Serde等。
parquet-cpp：用于读写 Parquet 文件的 C++ 库。
parquet-rs：用于读写 Parquet 文件的 Rust 库。
parquet-compatibility：包含验证不同语言之间读写 Parquet 文件的兼容性测试等。

2、数据模型

Parquet 是一种支持嵌套的数据模型，和 Protocol Buffers 的数据模型类似，它的 schema 就是一个嵌套 message。

每个 schema 包含多个字段，每一个字段又可以包含多个字段，每一个字段有三个属性：repetition、type 和 name，其中 repetiton 可以是以下三种：required（出现1次），repeated（出现0次或多次），optional（出现0次或1次）。每一个字段的数据类型可以分成两种：group（复杂类型）和 primitive（基本类型）。一个如下的 Parquet Schema 示意图

如果用代码表示就是：

message AddressBook  {
    required string owner;
    repeated string ownerPhoneNumbers;
    repeated group contacts {  
        required string name;  
        optional string phoneNumber;
    }
}

3、文件格式

下面是 Parquet 官网给出的文件格式图解：

从如上文件结构可以看出，Parquet 格式可以从以下几个部分理解：

文件（File）：一个 Parquet 文件，包括数据和元数据，如果在 HDFS 之上，数据就是分散存储在多个 HDFS Block 中。
行组（Row Group）：数据在水平方向上按行拆分为多个单元，每个单元就是所谓的 Row Group，即行组。这是一般列式存储都会有的结构设计。每一个行组包含一定的行数，Parquet 读写的时候会将整个行组缓存在内存中，因此更大尺寸的行组将会占用更多的缓存，并且记录占用空间比较小的 Schema 可以在每一个行组中存储更多的行。
列块（Column Chunk）：一个行组中的每一列对应的保存在一个列块中。行组中的所有列连续的存储在这个行组文件中，每一个列块中的值都是相同类型的，不同列块可能使用不同的算法进行压缩。
数据页（Data Page）：每一个列块划分为多个数据页或者说页，一个页是最小的编码的单位，在同一个列块的不同页可能使用不同的编码方式。

Parquet 文件有三种类型的元数据，分别是file metadata、column(chunk) metadata、page header metadata，每部分元数据包含的信息从上面图解中大概可以得知。

此外，值得说明的是文件 header 部分中的 Magic Number，它的作用主要是为了做文件校验，验证文件是否是一个Parquet文件。

基本操作

1、通过 Hive 创建 Parquet 表

· 标准建表语句。举一个最简单的建表示例，如下：

create table t1 (id int) stored as parquet;

· 通过 TextFile 表创建 Parquet 表。这是离线数仓中的常规操作，假设已经准备好了一张 TextFile 表 catalog_sales，在 hive shell 命令行中演示如下操作：

-- 创建parquet表（不压缩）
 > drop table if exists catalog_sales_par;
 > create table catalog_sales_par stored as parquet as select * from catalog_sales;

-- 设置parquet为snappy压缩
 > set parquet.compression=SNAPPY;
 > create table catalog_sales_par_snappy stored as parquet as select * from catalog_sales;

-- 设置parquet块大小
  > set parquet.block.size=268435456;
 > create table catalog_sales_par_snappy2 stored as parquet as select * from catalog_sales;

2、查看 Parquet 文件 Schema

假如现在我们手上有一份 Parquet 文件，但是并没有人告知我们它对应的 schema 信息，这个时候怎么才能快速知道它的 schema 等信息呢？

其实 Parquet 原生提供了一个工具模块，这个工具可以很方便的查看本地或 HDFS 上的 Parquet 文件信息。不仅仅是 schema，还包括其他信息，按照下面使用方法中的帮助提示即可。

下载地址：

https://www.mvnjar.com/org.apache.parquet/parquet-tools/jar.html

使用方法：

#Run from Hadoop
hadoop jar ./parquet-tools-<VERSION>.jar --help
hadoop jar ./parquet-tools-<VERSION>.jar <command> my_parquet_file.par

#Run locally
java jar ./parquet-tools-<VERSION>.jar --help
java jar./parquet-tools-<VERSION>.jar <command> my_parquet_file.par

实际测试：下载 parquet-tools-1.8.0.jar 工具包，上传到集群节点并读取 HDFS 上的一个 Parquet 文件：

TPC-DS 基准测试介绍

TPC-DS 是标准的大数据基准测试，采用星型、雪花型等多维数据模式，提供与真实数据一致的数仓数据以及符合实际的工作负载。提供的数据集包含 24 张表，其中 7 张事实表，17 张维度表，平均每张表含有18列。事实表的表名分别是 catalog_returns、catalog_sales、inventory、promotion、store_returns、store_sales、web_returns、web_sales。工作负载包含 99 个 SQL 查询，覆盖SQL99 和 2003 的核心部分以及 OLAP。

这里提前编译好了一版 TPC-DS 包，并使用它在本地生成 10 GB 的样本数据，命令如下：

$cd ~/training/tpcds/v2.3.0/tools
$nohup ./dsdgen -scale 10 -dir ~/data_10g &

然后使用它提供的 Q20 简单测试一下 TextFile 与 Parquet 格式数据的查询性能。更多的性能测试这里不多描述了。

原文链接:

https://mp.weixin.qq.com/s?__biz=MzUxOTU5Mjk2OA==&mid=2247484224&idx=1&sn=ce676f6efc5d1c7c16cc7be82410281d&utm_source=tuicool&utm_medium=referral

https://www.infoq.cn/article/in-depth-analysis-of-parquet-column-storage-format

Apache Parquet 干货分享

百度地图API地理编码服务JAVA代码

centos7上部署Spark 2.4.5集群

Comments NOTHING

取消回复