运维网's Archiver
论坛
›
Hadoop
› hadoop伊始
yw6866
发表于 2018-10-30 11:37:13
hadoop伊始
将login日志全部加在到内存,然后对总数据在myinputformat中进行处理和分区,首先统计数据总量,然后将数据大致均匀的分成几个split。然后在map的setup()方法中读取小表ip段的数据,放入list中,此时在map函数中一条条读取消息,进行匹配算法。但是这个的话,当数据量小的时候还可以,当数据量大的时候,就会报内存溢出。
页:
[1]
查看完整版本:
hadoop伊始