map中获取文件名 //获取数据所属文件名 FileSplit fis = (FileSplit) context.getInputSplit(); String fileName = fis.getPath().getName(); context.write(new Text(fileName), value); 压缩文件snappy Driver中Configuration按以下设置 //设置map使用的压缩算法 conf.set("mapreduce.map.output.compress","true"…
环境说明 192.168.100.101 node01 192.168.100.102 node02 192.168.100.103 node03 192.168.100.104 node04 四台Vmware Workstatuin中搭建的centos6.9主机,hadoop版本为2.6.0 ①创建etc/hadoop/dfs.hosts.exclude配置文件,并添加需要退役的节点 [root@node01 hadoop]# cat dfs.hosts.exclude node04 ②修改hdfs-site.x…
SecondarynameNode工作原理 由于editlog记录了集群运行期间所有对HDFS的相关操作 所以这个文件会很大。 集群关闭后再次启动时会将Fsimage,editlog加载到内存中, 进行合并,恢复到集群的。 由于editlog文件很大,集群再次启动时会花费较长时间。 为了加快集群的启动时间,所以使用secondarynameNode辅助NameNode合并Fsimage,editlog。 1、 secnonaryNN通知NameNode切换editlog 2、secondaryNN从NameNode…
环境说明 192.168.100.101 node01 192.168.100.102 node02 192.168.100.103 node03 192.168.100.104 node04 四台Vmware Workstatuin中搭建的centos6.9主机,hadoop版本为2.6.0 前置准备说明 准备台新的节点node04,配置好ssh免密登录,JDK环境,防火墙配置,SELINUX关闭,将Hadoop文件拷贝到node04节点上 服役新数据节点 ①创建dfs.hosts文件,添加节点(包含新服役的节点…
①使用lsblk -f命令查看新添加的硬盘sdb [root@node04 ~]# lsblk -f NAME FSTYPE LABEL UUID MOUNTPOINT sdb sda ├─sda1 ext4 f901db3e-cf38-4899-8dc2-190e9884df6f /boot └─sda2 LVM2_member DSNFIu-ptjm-Eny8-lMW5-Wk10-V5o3-ZdP1E7 ├─vg_node04-lv_root (dm-0) ext4 64b53586-dedb-42aa-b8d…
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:na…
环境说明 配置环境准备3台机器,四台机器环境是 CentOS 6.9,IP和主机名配置如下: 192.168.100.101 node01 192.168.100.102 node02 192.168.100.103 node03 前置配置 ssh免密登录,JDK环境,防火墙配置,SELINUX关闭 Hadoop配置及安装 ①文件下载&&解压 下载:http://archive.cloudera.com/cdh5/cdh/5/ 文件放置在 /export/soft下,解压缩:tar -zxvf ha…
Ⅰ.格式化HDFS 首先停止已经启动的hadoop $HADOOP_HOME/sbin/stop-all.sh 删除hadoop配置文件hdfs-site.xml,查找dfs.name.dir、dfs.data.dir以及Hadoop.tmp.dir指定的目录,并将其删除。 rm -rf ${HADOOP_HOME}/tmp 格式化HDFS hadoop namenode -format 或执行hadoop目录下hdfs namenode -format 格式化完成 启动hadoop,发现问题 [root@node…