设为首页 收藏本站
查看: 1626|回复: 0

[经验分享] 《写给大忙人的hadoop2》读书笔记(一)大数据定义

[复制链接]

尚未签到

发表于 2018-10-29 10:37:54 | 显示全部楼层 |阅读模式
  本文主要内容摘记自电子工业出版社出版的《写给大忙人的Hadoop2》,Douglas Eadline著,卢涛 李颖译。如想深入了解相关内容,请购买正版书籍阅读。
  一、大数据的定义
  大数据不只是数据量大的意思,根据维基百科(http://en.wikipedia.org/wiki/Big_data),大数据的定义有以下几个特点。
  1、数据量(Volume):大的数据量明确界定了大叔与。在某些情况下,数据的庞大规模使其不可能用更为常规的手段来计算。
  2、多样性(Variety):数据可能来自不同的来源,并且不一定与其他数据源“关联”。
  3、高速度(Velocity):数据的生成和处理速度非常快。
  4、可变性(Variability):数据可能是高度易变、不完整和不一致的。
  5、复杂性(Complexity):数据源之间的关系不可能完全清楚,并且不遵从传统的关系型方法。在实际工作中可能会听到“结构化数据”、“半结构化数据”、“非结构化数据”的概念,说的就是存储的数据模型的复杂性和多样性。
  以下是一些可能被认为是“大数据”的实例:
  1、媒体数据,包括视频、音频和照片(比如城市监控视频数据)。
  2、已完成的文件、刊物和数据。
  3、web数据,包括系统日志/web日志,点击追踪文件和文本消息/电子邮件。(大数据在此场景的应用最为常见)
  4、科学研究数据,包括模拟结果和人类基因数据。
  5、股票交易、客户数据和零售购买。(在电子商务中应用最为成熟,通过记录客户行为,分析用户习惯,向用户推荐相关产品)
  6、电信数据,包括电话记录。(比如通话记录,以前运营商是周期性的进行数据离线存档,应用大数据平台后,所有数据在线,用户可以查询更久的记录)
  7、公共记录,包括省、市和地方政府的资源。
  8、物联网(数据来自所有连接的设备),实时传感数据,包括交工或运输物流。
  随着联机存储数据增多,数据的清单将继续增长,甚至某些场景下的数据时飞速增长。数据可能是私有或公有的。
  二、Hadoop作为数据湖
  在研究Hadoop如何处理大数据之前,必须先了解现代数据存储系统如何运作。它具有大数据的功能之一,是用于所有数据的中央存储库。一些数据可能不适于存储在关系型数据库中,大部分数据将需要按照原始形式存储。这一特性往往是Hadoop数据处理与更传统的方法的区别所在。这个想法通常被称为“数据湖”,是为所有的原始数据创建一个巨大的存储仓库,并根据需要使用它。
  向传统的关系型数据库或数据仓库添加数据的前提是先把数据转变成一个可以加载到数据库的预定的模式。此步骤通常被称为提取、转换和加载(ETL),在可以使用数据之前会消耗时间和成本。关于数据时如何使用的决定必须在ETL步骤中间做出。此外,一些数据经常在ETL步骤中被丢弃,以为它不能放入数据模式或被认为不需要。
  Hadoop的重点是按照其原始格式使用数据。本质上,当数据有Hadoop应用程序访问时,看起来就像执行ETL步骤。这种方法,称为读时模式(schema on read),在访问数据的时候按自己的需求来构造结构。传统的数据仓库方法,称为写时模式(schema on write),在存储时需要根据最终使用数据的方式进行设计。
  数据湖的三个优势:
  1、全部数据都保持可用。无需对以后数据的使用作出任何假设。
  2、全部数据都是共享的。不同单位或个人都可以使用所有可用数据,以前由于数据分布在完全不同的系统上,是不可用的。
  3、全部访问方法都是可用的。任何处理引擎都可以用来检查数据(例如MapReduce、Spark、)。
  必须明确,Hadoop并不一定能代替数据仓库。数据仓库是有价值的业务工具。在实际应用中,一般数据仓库和Hadoop同时使用。
  本文主要讲解了大数据的概念和应用场景,讲解了数据湖的概念以及数据湖和传统数据仓库的对比。下篇博文将讲解Hadoop的基本概念,欢迎关注。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627888-1-1.html 上篇帖子: Hadoop产生原因 下篇帖子: hadoop基础概念之Hadoop核心组件
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表