yw6866 发表于 2018-10-30 11:37:13

hadoop伊始

  将login日志全部加在到内存,然后对总数据在myinputformat中进行处理和分区,首先统计数据总量,然后将数据大致均匀的分成几个split。然后在map的setup()方法中读取小表ip段的数据,放入list中,此时在map函数中一条条读取消息,进行匹配算法。但是这个的话,当数据量小的时候还可以,当数据量大的时候,就会报内存溢出。

页: [1]
查看完整版本: hadoop伊始