分类: HDFS
-
Apache Parquet 干货分享
Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impa…
-
Centos7下Apache Hadoop 3.2.1伪分布式部署安装
[infobox title=”前置配置”] nmtui 静态IP配置,host配置 …
-
大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等
常见端口汇总: Hadoop: 50070:HDFS WEB UI端口 9870:3.x HD…
-
解决对HDFS文件系统操作权限不够的问题
HDFS文件系统的目录基本都属于supergroup用户组,所以就把用户添加到该用户组,即可解决很多权限问题,…
-
Hadoop High Availability 高可用
一、 Hadoop High Availability HA(High Available), 高可用,是保证…
-
Hadoop mapreduce自定义inputFormat输入
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设…
-
Hadoop mapreduce自定义outputFormat输出
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设…
-
MapReduce开启压缩算法对结果进行压缩
[infobox title=”方法①:在代码中进行压缩设置”] map…
-
Hadoop MapReduce 部分代码操作
map中获取文件名 //获取数据所属文件名 FileSplit fis = (FileSplit) conte…
-
HDFS的JAVA的部分API操作代码
前置需求 [successbox title=”pom包导入”] <reposi…