设为首页 收藏本站
查看: 1134|回复: 0

[经验分享] 是否需要追逐潮流!基于Hadoop的感想

[复制链接]

尚未签到

发表于 2018-10-31 12:35:45 | 显示全部楼层 |阅读模式
  近几年大数据的概念被炒的红红火火,各种云应运而生,也有不少企业开始搭载自己的云,但是真的什么企业都需要吗?下面我要说的也仅仅是基于我目前工作的一些感想,欢迎拍砖!
  公司的主要数据是利用HBase收集的报文,整个到目前运行了一年零一两个月的时间。目前数据量是266GB(其中包含一份完全副本,实际业务数据133GB),在7月出进行数据统计时,该平台数据量为250GB(其中包含一份完全副本,实际业务数据125GB),并且通过计算可以得知,在过去14个月内,平均每月获得的数据量为9.5GB,并且7月份一个月的时间内HBase收集的报文为8GB左右。
  通过上面的描述可以看出这个业务的数据量并不大,可能很多公司tomcat一天的日志量都比这一年的总数据量要大的多。并且在前段时间对HBase内表的数据进行了一次统计,大约有700W的数据,搜索一共耗时20分钟左右。说实话,这个速度并不算快,由于节点数量的不足并不能充分发挥HBase在分布式上的有点,但是这个时间对比Oracle真的能有提升吗?
  在有了如上疑问后跟领导进行了沟通,领导要表达的是:不管是不是合适,我们要先抢占技术的高峰,就算目前数据量不大以后也会变大。根据领导的回答我也算明白了,当初在构建这个平台的时候基本没有考虑到这个平台是否符合业务逻辑的需求(PS:虽然我在这个公司也不想涉及到业务逻辑方面的内容),只是因为这个东西很新,很火。
  在和领导沟通后,我简单的了解了一下表内的内容:时间、报文类型(公司设定的发送报文、接受报文、企业报文用不同的编号来表示)、报文XML文件。说真的,存储的方式对于分析来说作用很小,因为XML文件没有解析,所以有了第二次沟通。
  在第二次沟通前我了解了一下关于XML解析方面的内容,可以通过Java程序解析后再报错,同时Hadoop在某一个版本是确实存在着XML解析的类,不过后来被取消了。沟通的结果就是领导让我去想办法弄XML的解析,说真的这东西我真力不从心。后来的几次沟通也是这样(内容多种多样,包含HBase的API接口压力测试,云平台改进想法文档等等),最后都是无功而返。
  通过多次的沟通,我始终觉得领导从来没有在这个系统是不适合Hadoop上进行过思考,每次一说到这个,就开始跟我说百度、谷歌每天要对几个PB的文件进行分析,而我们对百十来个GB的数据束手无策。但是真的是束手无策吗?每次沟通我都会说一些想法,最后也都被很容易得PASS了,原因大部分都是因为他试验过效率不行等原因。
  一个月就算多说10个G的数据量,平均到每天也就不足350MB。真的都放到Oracle甚至MySQL里面每天跑个列表出来应该并不困难。而坚定的认为Hadoop在架构上比那两个更先进,所以效果就更好。这里我打个比方吧!
  一个人走路的速度比骑车的速度慢,骑车的速度又比汽车的速度慢!同样是5公里,走路可能需要半个小时,骑车需要15分钟,汽车需要10分钟。但是如果你想从一个楼到对面的楼里面去那?你会选择开走路、汽车还是骑车那一种?如果你要是去1公里外的报亭买报纸你会选择开走路、汽车还是骑车那一种?如果你去50公里外的地方郊游你会选择开走路、汽车还是骑车那一种?
  现在的情况是:
  小部分企业给人的感觉就是开着汽车去隔壁串门!
  大部分企业跟人的感觉是开着汽车去一公里外的地方买报纸!
  极小一部分的企业是开着汽车去郊游!


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628978-1-1.html 上篇帖子: Hadoop中的fsimage和edits(能力工场--Hadoop) 下篇帖子: Hadoop运行的job作业的时候有具体十个步骤(能力工场--整理)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表