Hadoop伪分布式搭建以及入手小例子——面向纯新手（上）

amy_888 · 发表于 2015-7-11 09:21:26

　　额，刚写了开博之后的第一篇，看看还有点儿时间才开会，今天得再来一发...
　　
　　研究Hadoop不长，开始的时候完全是项目需要，也完全是冲着HBase去的...
　　部门的新产品数据量太大了，第一个客户的MySql几个月就瘫了...瘫了...恨自己没时间多往DBA方向靠一靠...
　　瘫了就得改啊，以后的项目不能再瘫了，再瘫部门就瘫了 - -！赶集换型！
　　目标很明确，就是NoSql，比较了一堆数据库后，目标锁定了HBase跟Mongo，由于我之前还研究过一阵子Mongo，并且Mongo也发展到了2.X版本，个人是比较倾向于Mongo的，可仔细想了想需求还是HBase合适...并且很多大公司像FaceBooke也转向了Hadoop，作为致力于向国际一流公司看齐的大连某软牛逼公司，领导一拍桌子就它了！(纯yy & 吐槽 - -！)
　　
　　Hadoop部署分三种：单机游戏...伪分布式，分布式
　　现在手头一开始的4台机器已经开始干活了，只能先来个伪分布式的了。
　　首先你需要：

linux环境：没有的话，自己装虚拟机在里面再装也行，我这里就用VMware装个CentOS作环境了
JDK：手头正好有1.6的 jdk-6u45-linux-i586.bin
hadoop: 选择了 hadoop-1.2.1.tar.gz(Hadoop版本太多了，开源这玩意，谁都能整一套...还是Apache的吧，以后有精力可以根据需要自己改)

　　好了，开整：

装好VMware,装好JDK：最基础的就不细说了，网上一搜一大堆。

1    export JAVA_HOME=/usr/java/jdk
2    export JRE_HOME=$JAVA_HOME/jre
3    export PATH=$PATH:$JAVA_HOME/bin
4    export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
　　环境变量配好了，要是遇到没有解压的jar像tools和rt,再 unpack200 解开
安装Hadoop：
- 首先需要创建用户和组：
  - 还是叫 hadoop 吧，名字别起的太劲爆... useradd hadoop 并且这里还是形成习惯使用统一的名字，以后集群的时候就舒服多了
  - 然后设密码 passwd hadoop
- /usr下解压 hadoop，文件夹改名叫hadoop，再给 hadoop 权限：chown –R hadoop:hadoop hadoop。
配置SSH：
　　hadoop集群个机器之间是使用SSH通信的，为了不总输入密码验证啥的，这里需要配置无密码登陆，就算是伪分布式也需要(其实Hadoop根本不知道伪不伪的..)
　　配置SSH分单向和双向，密钥又分rsa/dsa: 这里就不详细再说了，完全可以再开一篇了...
　　这里用最简单的单向，默认dsa就足够：

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 　
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_key
配置hadoop：
- 在hadoop主目录下新建 tmp文件夹： mkdir tmp （以后dfs和mapred会在这里）
- 添加环境变量：
  
  1 export HADOOP_HOME=/usr/hadoop
  2 export PATH=$PATH:$HADOOP_HOME/bin
- 修改hadoop-env.sh:
  
  export JAVA_HOME=/usr/java/jdk
- 配置hadoop的三个主要的配置文件：core-site.xml，hdfs-site.xml，mapred-site.xml。这里图简单实用，只需配2个就够
  - core-site.xml：
    
    fs.default.name
    hdfs://192.168.245.2:9000 　　这IP是虚拟机里CentOS的IP
    
    dfs.replication
    1 ## replication 是数据副本数量默认情况下是3个，这块如果不配的话，会总提示你，很烦人的
    
    hadoop.tmp.dir
    /usr/hadoop/hadoop/tmp　　这块就是刚才新建的那个文件夹
  - mapred-site.xml：
    
    mapred.job.tracker
    192.168.245.2:9001
格式化：hadoop namenode -format
启动：/bin/start-all.sh
看一下是否OK：命令查看jps & 也可以看看web监控页面 http://localhost:50070 和 http://localhost:50030

　　如果到这都没有问题的话，最基本的Apache Hadoop环境就搭好了。
　　下一篇再使用这个环境，来一个例子，初步想用maven创建的java project 计算大连这一周天气的最高气温 - -！
　　
　　PS：这第二发，明显好长啊，排版好累，都没改上图，总需要改html吗？这么麻烦？还是我不太会用...擦
　　
　　
　　
　　

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Hadoop伪分布式搭建以及入手小例子——面向纯新手（上）

浏览过的版块

扫码加入运维网微信交流群