设为首页 收藏本站
查看: 1377|回复: 0

[经验分享] 关于flume中hbase插件数据误差的问题

[复制链接]

尚未签到

发表于 2015-11-27 20:16:09 | 显示全部楼层 |阅读模式
  前几天用到flume的日志收集,基于公司的业务对flume本身自带的hbase插件做了些改造,测试的时候却出现了丢数据和多数据的问题……
  1.首先查看collector的event数,是与原数据量相符的。所以在agent与collector的交互过程是没有问题的
  2.查看开发插件业务处理过程,看了好几遍感觉也没问题。
  3.于是问题只有可能出现在hbase的数据处理上了。本来是基于flume自带的hbase插件做的改造,在数据提交那块上没动脑子,后来才发现问题就是出在数据提交这块。
  
  丢数据
  为什么会出现丢数据的情况呢?
  
  大家都知道HTable的put操作是支持本地缓存的,如果设置了buffer,HBase不会每次put操作都提交到后台,而是等client端的数据量达到指定的buffer时才向后台提交数据。
  本来在flume这种模式下,数据的提交速度本身就很快,如果不设置buffer,性能上会严重出现问题。但由于HTable本身没有提供定时提交buffer的机制,所以数据量未达到buffer时,client端的数据是不会提交到后台的。所以此时会出现丢数据的假象。于是就想独立启用一个线程定时去提交buffer中的数据,不管buffer有没有达到指定数据量。这时可以在出现异常的情况下尽量避免丢失buffer中的数据(但是不能完全避免)。
  
  此时因为是多线程处理HTable的数据,就要考虑到HTable的线程安全,通过HTable的介绍可知,HTable并非是线程安全的。
This class is not thread safe for updates; the underlying write buffer can be corrupted if  multiple threads contend over a single HTable instance.
  所以得控制好多线程操作HTable这块。
  
  多数据
  为什么会出现多数据的情况呢?
  
  首先是没有正确操作flume,在flume的agent端,如果采用DFO(Store on failure)的方式,在collector不可抵达时,agent端的event事件会存储在本地磁盘,如果第一次启动agent的时候已经存储了数据在本地磁盘而未删除,在第二次启动agent时,本地磁盘的数据会被重新发送给collector,这个时候就会出现多数据的情况。所以在重启agent的时候,记得处理本地磁盘的数据。
  另外一种情况请参考Flume agent端event重复发送(数据暴增不一致)的问题
  
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-144365-1-1.html 上篇帖子: flume介绍及原理总结 下篇帖子: flume-ng开发自己的source两种方法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表