MapReduce高级案例①①

kamisamak 发布于 2020-06-17 1574 次阅读


WordCount案例

[infobox title="数据"]

hello world
dog fish
hadoop 
spark
hello world
dog fish
hadoop 
spark
hello world
dog fish
hadoop 
spark

[/infobox]
[infobox title="统计一堆文件中单词出现的个数(WordCount案例)"]
在一堆给定的文本文件中统计输出每一个单词出现的总次数


[/infobox]
[infobox title="把单词按照ASCII码奇偶分区(Partitioner)"]
ruaDriver 展开 / 收起

[/infobox]
[infobox title="大量小文件的切片优化(CombineTextInputFormat)"]
将输入的大量小文件合并成一个切片统一处理。

// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m

[/infobox]
案例来源:https://www.cnblogs.com/frankdeng/p/9311481.html