设为首页 收藏本站
查看: 1148|回复: 0

[经验分享] 爬虫教程:tybai.com

[复制链接]

尚未签到

发表于 2017-12-16 23:41:06 | 显示全部楼层 |阅读模式
1、新建三台机器,分别为:
  hadoop分布式搭建至少需要三台机器:



  • master
  • extension1
  • extension2
  本文利用在VMware Workstation下安装Linux centOS,安装教程请看:
  VMware Workstation下安装Linux
DSC0000.png


2、编辑ip
  用ifconfig查看本机ip:
  

[iyunv@master ~]# ifconfig  
eno16777736: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
  inet 192.168.204.128  netmask 255.255.255.0  broadcast 192.168.204.255
  inet6 fe80::20c:29ff:fe43:53ea  prefixlen 64  scopeid 0x20<link>
  ether 00:0c:29:43:53:ea  txqueuelen 1000  (Ethernet)
  RX packets 86219  bytes 123262936 (117.5 MiB)
  RX errors 0  dropped 0  overruns 0  frame 0
  TX packets 22010  bytes 1501252 (1.4 MiB)
  TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
  

  
lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
  inet 127.0.0.1  netmask 255.0.0.0
  inet6 ::1  prefixlen 128  scopeid 0x10<host>
  loop  txqueuelen 0  (Local Loopback)
  RX packets 188  bytes 33400 (32.6 KiB)
  RX errors 0  dropped 0  overruns 0  frame 0
  TX packets 188  bytes 33400 (32.6 KiB)
  TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
  

  
virbr0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
  inet 192.168.122.1  netmask 255.255.255.0  broadcast 192.168.122.255
  ether 00:00:00:00:00:00  txqueuelen 0  (Ethernet)
  RX packets 0  bytes 0 (0.0 B)
  RX errors 0  dropped 0  overruns 0  frame 0
  TX packets 0  bytes 0 (0.0 B)
  TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
  

  extension1 和 extension2 同样如此,可以得到三台机器的ip分别为:

  master:192.168.204.128
  
extension1:192.168.204.129
  
extension2:192.168.204.130

  切换到/etc/hosts修改配置,隔一行在后面加上:
  

192.168.204.128   master  
192.168.204.129   extension1
  
192.168.204.130   extension2
  

DSC0001.png


3、创建SSH密匙
  创建密匙命令:
  

[master@master root]$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  

  得到样式如下:
DSC0002.png

  extension1 和 extension2 同样操作
  切换到密匙文件夹:/home/master/.ssh/

4、复制密匙成新文件
  输入命令:
  

[master@master .ssh]$ cat>  

  会在当前生成新的文件:
  authorized_keys
  extension1 和 extension2 同样操作

5、测试密匙
  测试密匙能否使用:



  • ssh localhost
  • yes
  • 输入密码
  • exit
  extension1 和 extension2 同样操作
DSC0003.png


6、extension复制master密匙
  extension复制master密匙达到免密码登陆,在三台机器里面都输入下面命令:
  

[extension1@extension1 .ssh]$ scp master@master:~/.ssh/id_dsa.pub ./master_dsa.pub  
cat master_dsa.pub >> authorized_keys
  
chmod 600 authorized_keys
  

  extension1 和 extension2 同样操作

7、实现免密匙登陆
  master能对master、extension1、extension2免密匙登陆:
  

ssh master@master  
ssh extension1@extension1
  
ssh extension2@extension2
  

  

  extension1 和 extension2 同样操作
DSC0004.png


8、下载解压安装包
  查看电脑位数: getconf LONG_BIT
  java地址(jdk1.7.0_09x64.tar.gz):
  

http://pan.baidu.com/s/1hs2uX1q  

  hadoop地址(hadoop-0.20.2.tar.gz):
  

http://vdisk.weibo.com/s/zNZl3  

  新建文件夹:



  • 切换到 root
  • 新建文件夹: mkdir /usr/program
  • 放入安装包
  • 解压
  解压命令:
  
tar -zxvf hadoop-0.20.2.tar.gz
  
tar xvf jdk1.7.0_09x64.tar.gz
  extension1 和 extension2 同样操作

9、java环境配置
  打开 /etc/profile 配置文件,在最末尾加入:
  

# set java environment  exportJAVA_HOME=/usr/program/jdk1.7.0_09x64
  exportJRE_HOME=/usr/program/jdk1.7.0_09x64/jre

  export>  export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
  export PATH=/usr/program/jdk1.7.0_09x64/bin
  

  保存退出后,跟新配置文件,让配置文件生效:
  

source /etc/profile  

  查看环境是否配置成功:
  

java -version  

  extension1 和 extension2 同样操作
DSC0005.png


10、hadoop环境配置
  创建一个文件夹:
  

mkdir /usr/program/hadoop-0.20.2/hadooptmp  

  进入文件夹:
  

/usr/program/hadoop-0.20.2/conf/  

hadoop-env.sh:
  

export JAVA_HOME=/usr/program/jdk1.7.0_09x64  

DSC0006.png


core-site.xml:
  打开文件:
  

vim core-site.xml   

  里面的代码改成:
  

<?xml version=&quot;1.0&quot;?>  
<?xml-stylesheet type=&quot;text/xsl&quot; href=&quot;configuration.xsl&quot;?>
  

  
<!-- Put site-specific property overrides in this file. -->
  

  
<configuration>
  
<property>
  <name>fs.default.name</name>
  <value>hdfs://master:9000/</value>
  </property>
  <property>
  <name>hadoop.tmp.dir</name>
  
<value>/usr/program/hadoop-0.20.2/hadooptmp</value>
  
</property>
  
</configuration>
  

DSC0007.png


hdfs-site.xml:
  打开文件:
  

vim hdfs-site.xml  

  写入以下代码:
  

<?xml version=&quot;1.0&quot;?>  
<?xml-stylesheet type=&quot;text/xsl&quot; href=&quot;configuration.xsl&quot;?>
  

  
<!-- Put site-specific property overrides in this file. -->
  

  
<configuration>
  
<property>
  <name>dfs.replication</name>
  <value>2</value>
  </property>
  
<property>
  
<name>dfs.permissions</name>
  
<value>false</value>
  
</property>
  
</configuration>
  

DSC0008.png


mapred-site.xml:
  打开文件:
  

vim mapred-site.xml  

  写入以下代码:
  

<?xml version=&quot;1.0&quot;?>  
<?xml-stylesheet type=&quot;text/xsl&quot; href=&quot;configuration.xsl&quot;?>
  

  
<!-- Put site-specific property overrides in this file. -->
  

  
<configuration>
  
<property>
  <name>mapred.job.tracker</name>
  <value>master:9001</value>
  </property>
  
</configuration>
  

DSC0009.png

  extension1 和 extension2 同样操作
DSC00010.png


11、环境配置
  打开文件:
  

/etc/profile  

  在最后面加入:
  

#set hadoop  export HADOOP_HOME=/usr/program/hadoop-0.20.2
  export PATH=$HADOOP_HOME/bin:$PATH
  

  使配置文件生效:
  source  /etc/profile

12、启动hadoop
  进入文件夹:
  /usr/program/hadoop-0.20.2/bin
  格式化namenode:
  

hadoop namenode -format  

DSC00011.png

  打开hadoop:
  

start-all.sh  

DSC00012.png

  输入 jps :
DSC00013.png

  但是,如果输入口输入 jps 出现:
  

bash: jps: 未找到命令...  

DSC00014.png


方法一:
  查看java目录:
  

which java  

  删除这个指引:
  

rm /bin/java  

  建立新的指引:
  

ln -s /usr/program/jdk1.7.0_25/bin/java /bin/java  

方法二:
  经过排查发现是:
  jps 命令是在java解压包中的 /bin/ 文件夹里面,是一个可执行文件,但是可以用另一个方法来看是否完成启动:
  

stop-all.sh  

DSC00015.png

  但是用另一个方法查看也行,浏览器输入:
  

192.168.204.128:50030  

DSC00016.png

  浏览器输入:
  

192.168.204.128:50070  

DSC00017.png

  该完成的时候还是会完成的,切记java下载的版本下载为:



  • jdk1.8.0_101
  • jdk1.7.0_09
  • jdk1.6.0_13
  • jdk1.7.0_21
  oracle地址:
  

http://www.oracle.com/technetwork/cn/java/javase/downloads/jdk8-downloads-2133151-zhs.html  

检查安装的JAVA包:
  

rpm -qa | grep jdk  

  卸载相应的包:
  

yum -y remove java-1.8.0-openjdk-headless.x86_64  

DSC00018.png

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-424876-1-1.html 上篇帖子: hadoop的hdfs中的javaAPI操作 下篇帖子: yangykaifa
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表