设为首页 收藏本站
查看: 1196|回复: 0

[经验分享] hadoop学习系列(1.大数据典型特性与分布式开发难点)

[复制链接]

尚未签到

发表于 2018-10-28 14:30:53 | 显示全部楼层 |阅读模式
  第一天
  1.大数据典型特性与分布式开发难点
1.大数据典型特性与分布式开发难点2.Hadoop框架介绍与搜索技术体系介绍3.Hadoop版本与特性介绍4.Hadoop核心模块之HDFS分布式文件系统架构介绍5.Hadoop核心模块之Yarn操作系统架构介绍6.Linux安全禁用设置与JDK安装讲解7.Hadoop伪分布式环境部署HDFS部分8.Hadoop伪分布式环境部署Yarn和MR部分9.Hadoop环境使用常见的错误集合10.Hadoop环境常规设置与辅助功能讲解(-)11.Hadoop环境常规设置与辅助功能讲解(二)12.Windows环境下部署Eclipse插件注意事项  1.大数据典型特性与分布式开发难点
  1.大数据典型特性
  没有大数据据技术之前,我就以抽样统计为例(统计一个城市的男女人口比例),我们的做法是不是找个人多的地方,随机抽取一部分人,统计出男女比例,作为城市的男女人口比例,这样的误差非常大,数据量越大,统计出来的结果越准确。这样我们就要先解决这么大数据量的存储问题,(这个例子不能体现出数据类型繁多),接下来是不是要解决数据计算的问题,总不能人工一个一个数吧,大数据技术就能为我们解决这些问题。
  传统RDBMS 的瓶颈,关系型数据的特点是各个数据项之间有一定的关系,这个在设计数据库的设计阶段必须设计好,但是当今需求中,我们往往分析的数据之间没有关系,例如我们在设计一个推荐系统的时候,要分析客户的行为,客户的行为数据之间就没有相应的关系,结构化数据和非结构化数据共存使数据多样化。
  海量的数据,这么大的数据量,我们还要处理的非常快。这对技术是很大的挑战。这就是大数据的特性
DSC0000.jpg

  多:这里的多就是海量数据,我们要解决海量数据的存储问题
  繁:结构化,非结构化,半结构化数据的共存
  快:这么大的数据量,这么繁多的不同类型的数据,还要处理的快,不然就会成为系统的瓶颈。
DSC0001.jpg

  我们的最终目的是挖掘出有用的,有价值的数据。
  2.大数据的能做什么?
DSC0002.jpg

  3.一个数据平台的工作(完整的平台)
  3.1离线
  -》批量计算
  3.2 实时
  -》流式计算
  -》在线分析
  3.3数据共享
  4.数据平台指标
  -》设备台数:5000台
  -》总存储数量:100PB+
  -》日新增数量:200TB+,月数据增长比率10%
  -》有多个数据产品
  -》存储表10w+
  -》日均运行JOB数
  -》日均计算量5PB+
  5.分布式开发的难点
  -》平台搭建
  -》分布式
  -》同步,一致性(配置(会搭建很多框架),时间(微妙误差))
  -》自动化部署管理平台
  -》cloudera 发布的hadoop版本 CDH
  -》cloudera  manager,简称:CM
  -》框架是开源的  不可靠
  所以很多公司都是以开源框架为基础,开发自己的框架,例如:淘宝的 TFS文件系统
  任务调度框架oozie,淘宝自己的框架 宙斯 。
  -》成本的问题
  由于集群用到的机器比较廉价,所以会出现节点故障,我们必须有相应的容错机制,保证集群的健壮性。
  6.学习大数据的基础:
DSC0003.jpg

  自己学习的随笔,在组织存在问题,不喜勿说


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627593-1-1.html 上篇帖子: 小白学习大数据测试之hadoop再次探索 下篇帖子: Hadoop集群部署实战
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表