第一个:hadoop-env.sh
vim hadoop-env.sh
#第27行 数字打27然后按enter键可以从文头直达27行
#这里要写死,原本是自动读取系统变量,但有时候读不到
#echo $JAVA_HOME 可以输出变量值
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65
|
第二个:core-site.xml <!-- 指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址 -->
<property>
<name>fs.defaultFS</name>
<!-- localhost为你自己的主机名称,端口号自定义,默认9000 -->
<value>hdfs://localhost:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<!-- 真实环境应当单独指定NameNode和DataNode的挂载点,可以拓展更多的磁盘 -->
<value>/home/hadoop/application/hadoop-2.4.1/data</value>
</property>
以上配置都在<configuration></configuration>中加入
|
第三个:hdfs-site.xml <!-- 指定HDFS副本的数量 ,因为博主是用虚拟机,所以随便几个副本都是在一台机器上,配多个没啥意义,真实环境应该为3个或以上-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- 还可以指定切块大小,1.版本默认64M 2.版本默认128M -->
|
第四个:mapred-site.xml mv mapred-site.xml.template mapred-site.xml
<!-- 修改文件名,否则读不到 -->
vim mapred-site.xml
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
|
第五个:yarn-site.xml <!-- 指定YARN的老大(ResourceManager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
<!-- localhost为机器名,若改过请用改之后的 -->
</property>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
|
注意:要配置DataNode的节点地址在slaves.xml里面添加