设为首页 收藏本站
查看: 1495|回复: 0

[经验分享] Excel访问Hadoop 微软意在巩固Office

[复制链接]

尚未签到

发表于 2018-11-1 08:45:40 | 显示全部楼层 |阅读模式
  大数据的泡沫在毫无止境的膨胀,它给IT企业带来了颠覆性的改革。 Hortonworks的CEO Eric Baldeschwieler表示,目前企业中80%的数据是非结构化数据。更为雷人的是这些数据在以60%的速度呈现指数级增长,到2020年,全球数据使用量预计将暴增44倍,达到35.2ZB(1ZB=10亿TB)。大数据的急剧蔓延使得企业在存储架构方面逐渐面临着史无前例的考验,由此引发了数据仓库、数据挖掘、商业智能、云计算等应用的一连串连锁反应。
  据最新消息,微软正在研发一种连接器,即Excel用户能访问Hadoop大数据处理结果。而Hortonworks希望把它变成NoSQL到SQL的的通用连接器,在开源社区推而广之。
  大数据膨胀催生了微软等巨头纷纷拥抱Hadoop
  各大企业巨头纷纷有所行动,雅虎、AOL、谷歌、Facebook等早期采用并使用Hadoop来存储和分析PB级别的非结构化数据。IBM也在在 SmartCloud 平台上新增基于 Apache Hadoop 的服务 InfoSphere BigInsights 分析软件。Oracle的Big Data机采用了NoSQL数据库和Hadoop框架。EMC也推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备。Google 的网络搜索引擎在得益于算法发挥作用的同时,Hadoop的核心MapReduce 在后台发挥了极大的作用。亿贝的Hadoop系统能够很好地处理大规模非结构化数据,高效处理用户邮件数据。
  与各大巨头相比,微软更是耐不住寂寞,它与Hortonworks达成合作,致力于将Hadoop打造成用于存储和处理数据的引人注目的平台。Windows和Hadoop的结合将是非常具有吸引力的,这将吸引大量的Windows用户。显然微软具有在此领域竞争的实力,优化和调整是确保其成功的重要因素。
  微软捷足先登 不断强化开源Hadoop框架的支持
  大数据的浪潮一浪高过一浪,企业厮杀角逐越发激烈,微软迈出的步伐似乎更快,发力更猛。Hadoop可谓是开源创新领域的杰出典范,微软对Hadoop的支持更应该被看作极具转折式的决策。
  首先,早在2006年起微软就捷足先登,致力于研发某种非常类似于Hadoop的项目,被称为“Dryad”。
  2011年年初,该计划通过与SQL Server和Windows Azure云的集成实现了Dryad的产品化。虽然现在微软还没有更新,但看上去Dryad似乎将成为在SQL Server平台上影响大数据爱好者的有力竞争者。
  其次,微软早在2011年3月份就发布了数据库系统Trinity. Trinity是一款NoSQL数据库,同时也是一个基于内存的数据存储与运算系统。Trinity包括一个图结构数据库(提供实时查询与后台批量计算任务,类似于Map/Reduce,同时支持ACI的事物并提供C#的客户端API)和一个并行计算系统。目前在微软为Probase和AEther这两个产品服务。
  此外,2011年8月微软就增加了SQL Server在大规模数据处理和并行数据仓库平台对开源Hadoop框架的支持。微软已经将Hadoop嵌入到了生态系统中,并且发布了SQL Server的Hadoop连接器,此外,还推出了基于Hadoop的Windows Azure预览版,该连接器的最终版本已提供下载。这两个连接器采用SQL to Hadoop (SQOOP)技术,在Hadoop File System (HDFS)和微软关系数据库之间有效地传输数据。通过这个连接器,用户可以在Hadoop中分析非结构化数据,然后迁移到SQL Server环境中进行数据分析。
  用户需要将SQL Server Hadoop连接器部署到Hadoop集群的主节点上。主节点还需要安装Sqoop和微软的Java数据库连接驱动。Sqoop是一个开源命令行工具,用来从关系型数据库导入数据,并使用Hadoop MapReduce框架进行数据转换,然后将数据重新导回数据库当中。
  当SQL Server Hadoop连接器部署完毕之后,用户可以使用Sqoop来导入导出SQL Server数据。注意,Sqoop和连接器是在一个Hadoop的集中视图下进行操作的,这意味着用户使用Sqoop导入数据的时候是从SQL Server数据库检索数据并添加到Hadoop环境中,而相反地,导出数据是指从Hadoop中检索数据并发送到SQL Server数据库当中。
  总而言之,微软表示,随着新连接工具的出现,客户将能够在Hadoop、SQL Server和并行数据仓换环境下相互交换数据。
  微软再次发力在线数据库连接器:Apache Hadoop发扬光大
  微软新研发的是一款ODBC连接器,用于访问Hadoop对应的Hive数据仓库系统。Excel用户拿到Hive数据后,就可以借助Excel PowerPivot等工具,开始数据分析了。
  Hortonworks与微软积极开展合作,致力于将微软的Hadoop连接器推广到开源社区。另外的JavaScript也遵循同样的模式,即微软关注的是做产品,而Hortonworks则致力于开源。
  Hortonworks借微软东风 强化合作
  虽然目前来讲,这款Javascript框架和连接器还没有发布,不过预计将来会开源,前景很客观。
  总之,“闭源”微软拥抱Hadoop是木已成舟,微软似乎对开源领域频繁抛出橄榄枝,但无论如何,微软都不可能与开源Linux划上等号,因为Linux永远是Windows系统在台式机及服务器领域的直接对手。而Hadoop则不同,它可以作为微软SQL Server及Azure系列产品的一大重要补充方案而存在。另一方面,Hortonworks 希望能够与微软积极合作,将这门技术应用到开源领域,被广大Apache Hadoop社区所采用。微软将重点研发这款工具,打造属于自己产品的核心平台,正所谓各取所需,Hortonworks 也将重点瞄准了产品,希望借此东风,进一步衍生出更广泛的应用。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-629173-1-1.html 上篇帖子: cloudera 部署Hadoop 更方便 下篇帖子: FreeBSD下安装配置Hadoop集群(二)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表