Hadoop之入门

bestu · 发表于 2015-7-15 08:33:24

　　随着大数据的来临，hadoop应用而生，
　　hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。
　　hadoop的历史
　　始于2002年的apache项目Nutch
2003年Google发表了关于GFS的论文
2004年Nutch的开发者开发了NDFS
2004年Google发表了关于MapReduce的论文
2005年MapR被引入了NDFS
2006年改名为Hadoop，NDFS的创始人加入Yahoo，Yahoo成立了一个专门的小组发展
Hadoop
　　hadoop解决的问题
　　海量数据的存储 -- HDFS
　　海量数据的分析 -- MapReduce
　　Hadoop = The Hadoop projects
　　Common, Avro, MapReduce, HDFS, Pig, Hive, Hbase, ZooKeeper, Sqoop, Oozie
　　hadoop设计目
　　very large files 大文件单个文件大小可以到几百G ，文件总的大小到T以及P级别
　　Streaming data access
　　write-once, read-many-times
　　一次写多次读取，无法对写入的文件进行修改，目
前可以添加。
Commodity hardware 普通的硬件。
　　hadoop不适合场景
　　Low-latency data access 低延迟
　　Lots of small files 小文件
　　Multiple writers, arbitrary file modifications 不支持多次写
　　HDFS架构
　　在Hadoop中，一个文件被划分成大小固定的多个文件块，分布的存储在集群中的节点中
　　同一个文件块在不同的节点中有多个副本。
　　一个集中的地方保存文件信息。
　　/home/hdfs/a.txt.part1,3,(dn1,dn2,dn3)
　　/home/hdfs/a.txt.part2,3,(dn2,dn3,dn6)
　　/home/hdfs/a.txt.part3,3,(dn7,dn8,dn11)
　　HDFS架构图

　　Hadoop
　　Block：一个文件分块，默认64M
　　NameNode：保存整个文件系统的目录信息，文件信息以及文件相应的分块信息。
　　DataNode：用于存储Blocks HDFS的HA策略：NameNode一旦宕机，整个文件系统将无法工作。如果NameNode中的数据丢失，整个文件系统也就丢失了。
　　2.x开始，HDFS支持NameNode的active-standy模式
　　MapReduce原理
　　问题：
　　求出以下数组当中最大的数
　　1，3，23，3，4，18，2，8，10，16，7，5
　　int Max(int a[], n)
　　{
　　 int m=0;
　　 for(int i=0; i

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Hadoop之入门

扫码加入运维网微信交流群