hadoop伊始

yw6866 发表于 2018-10-30 11:37:13

　　将login日志全部加在到内存，然后对总数据在myinputformat中进行处理和分区，首先统计数据总量，然后将数据大致均匀的分成几个split。然后在map的setup（）方法中读取小表ip段的数据，放入list中，此时在map函数中一条条读取消息，进行匹配算法。但是这个的话，当数据量小的时候还可以，当数据量大的时候，就会报内存溢出。

页: [1]

运维网's Archiver

hadoop伊始