设为首页 收藏本站
查看: 669|回复: 0

[经验分享] hadoop日常应用的一点小分享(新人鄙见)

[复制链接]

尚未签到

发表于 2016-12-11 09:58:21 | 显示全部楼层 |阅读模式
         很高兴最后一个日常能接触跟hadoop应用相关的一些知识,当然最重要的是想给大家一个分享:
         说起来吓死人,跟云梯相关,扯的是淘宝全网的数据,其实是一个很简单的东西,希望通过我的分享,大家也能掌握如此技能,或者更深一步地往下走。
         Hadoop是什么?一只玩具象的名字,作者的儿子的玩具象。叫什么不重要,重要的是这玩意儿到底能给咱提供点啥,做点啥。
         很可惜,咱们只是应用层的,没有环境搭建和配置等等好玩的东西可以去玩玩,有兴趣的话可以自己在自己的机器上弄一个伪分布式环境爽一把,最好是linux~亲!
         Hadoop可以做的事情蛮多,我们常听的就是map/reduce这两项操作了,其实再说得直白一点就是:编号/汇总。啥分布式/集群不是什么了不起高深的东西,就是找个东西把N台服务器组织起来更好地提供服务。而hadoop就是这么样一个东西,当买来N太优良服务器的时候,我们需要给每台服务器装一个linux/unix操作系统并连上网,然后在里面装上JDK再弄上ssh服务,最后装上hadoop,然后弄好配置,然后一个完整的hadoop集群环境就能为你服务了。
         为啥要编号/汇总?为什么人民币只有1/2/5/10这么几种面值?怎么没有11块的人民币?有,肯定是假币。这是为了方便使用。当数据繁杂的时候,我们不光要考虑数据存储的问题,因为数据存储是能用钱解决的问题,不就是买服务器么,咱不缺钱。如果存着的东西没有价值不如不存,存的目的是以备不时之需,等需要的时候取出来。既然1/2/5/10这么几种面值就能拼出其他所有面值,干嘛还非得弄个十一块呢?其他的数据都是没有价值的。然后马上就有人来问,为啥不是只有一块,请问咱们买电脑的时候用过几千张一块么?人要懂得权衡利弊,取最合适的。你为人民币设计者省事还得为自己省事,还得为钱的存储空间发愁啊。
         Hadoop最经典的例子是word count,话说这样的程序很多人都写过,用一个map很容易就能实现,wordkeycountvalue遇到存在的word++;这就是hadoop里面的map原型。而reduce就是根据你的需求来的了,word count嘛有个value值统计出来就好了,于是你就在reduce里面把key /value都对应地保存起来就好了。
         而本次我实现的应用是进行卖家分类,按照信用等级来的。于是,信用等级为key卖家IDvaluemap的时候,N个在同一区间的ID映射到同一个key,然后在reduce的时候把同一个key值的ID放到同一个文件夹,OK任务完成。
         另外几个值得注意的地方可以让大家少走些弯路:
1.       认真观察你要使用的数据的数据结构,先做好人工的数据分析,数据提取,就是手动扒几行来看看
2.       在扒数据的过程中会看到诸如数据存储格式等等的各种问题,看到一点记录一点,后面的配置过程中用得着
3.       做完之后最好能有个分享,因为能把一个东西用好不是一天两天的事情,大家同在一个部门,共同进步才好
         额,应用层其实满肤浅,但是也必不可少,没有需求就没有人类的发展,世界的进步,欲望无止境,所以人类会不停地进步。
         看上去是一个很简单的东西,但是hadoop帮我们完成了很多很多,比如数据分布在一个大的集群中的时候,每台机器怎么协同合作,结果汇总?怎么提高利用效率,怎么进行并行计算?等等等等,根本就不是我辈小程序员可以弄得出来的。如果想做技术男,请深入了解,这是对hadoop这款产品最好的尊重方式。
         具体怎么搞:http://hadoop.apache.org/common/docs/r0.19.2/cn/这里全有,至于我的源代码什么的,由于涉及到淘宝的云梯数据,所以不能一并流出

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-312652-1-1.html 上篇帖子: [MapReduce]Apache Hadoop 2.2.0MapReduce1.x向2.x迁移[翻译] 下篇帖子: 【转】分析Hadoop自带WordCount例子的执行过程(1)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表