设为首页 收藏本站
查看: 801|回复: 0

[经验分享] nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署

[复制链接]

尚未签到

发表于 2015-7-12 11:54:25 | 显示全部楼层 |阅读模式
  原文地址: http://www.iyunv.com/i80386/p/3540389.html
  参考网站:
http://blog.iyunv.com/weijonathan/article/details/10178919    一个完整的部署过程,只是版本有所区别
http://m.blog.iyunv.com/blog/WeiJonathan/9251597    杨尚川的博客(nutch 分布式运行)
http://qindongliang1922.iteye.com/blog/1977053     三劫散仙博客(如何部署hbase)
http://wiki.apache.org/nutch/Nutch2Tutorial    官网
  一:nutch2.x与nutch1.x的主要区别:数据访问层的抽象
nutch 2.x----gora-core-0.3----gora-hbase----hbase

gora-core-0.3apache-gora提供了对nosql访问的统一接口。(注解:在上述链接里可以看到对其他数据库的支持)
gora-hbase针对hbase实现了gora的接口
  
  :
有了这两步nutch2.x就可以运行在Hbase上了。
支持nosql的优势:
当获取了外链要进行url排重的时候,以前基于hdfs的时候是读取之前全部的url用mapreduce实现排重(好沉重的赶脚),支持了nosql只需要一步查找即可。
  二:准备材料

hadoop-1.2.1http://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz
hbase-0.92.1http://archive.apache.org/dist/hbase/hbase-0.92.1/hbase-0.92.1.tar.gz
nutch-2.2.1http://archive.apache.org/dist/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz
  
  
  
  使用wget下载。
  三:安装hadoop(略)
我这里做了2个机器的hadoop集群,如下所示:

192.168.2.51Master.Hadoop
192.168.2.52Slave1.Hadoop
  

  四:安装Hbase(第一次配置简单点,使用自带的zookeeper)
将hbase拷贝到Hadoop根目录下 参考命令:



cp hbase-0.92.1.tar.gz /home/hadoop-1.2.1/ (之所以这样做可以方便以后扩展hadoop集群,直接scp就行了)
  
  解压并重命名 参考命令:



tar -zxvf hbase-0.92.1.tar.gz
mv hbase-0.92.1 hbase
cd hbase
  
  修改 hbase-env.sh,参考配置:



# The java implementation to use. Java 1.6 required.
# export JAVA_HOME=/usr/java/jdk1.6.0/
export JAVA_HOME=/usr/java/jdk 注解:设置java_home
export HBASE_CLASSPATH=/home/hadoop-1.2.1/conf
export HBASE_MANAGES_ZK=true
...
# The directory where pid files are stored. /tmp by default.
export HBASE_PID_DIR==/home/hadoop-1.2.1/hbase/pids (注解:这个最好不要采用默认,放在/tmp很不安全,有可能被误删)
  
  
修改hbase-site.xml,参考配置:




  
    hbase.cluster.distributed
    true
  
  
    hbase.rootdir
    hdfs://Master.Hadoop:9000/hbase // 注解:这里与hadoop的hdfs建立了联系,如果你hadoop dfs -ls 发现没有hbase这个文件夹,
   运行:hadoop dfs -ls /hbase
  
    hbase.master
    192.168.2.51:60000
  
  
    hbase.zookeeper.quorum
    192.168.2.52
  

  
  vim regionservers 参考配置:



192.168.2.51
192.168.2.52
  
  hadoop版本一致化:(版本不一致会出现异常)



cp /home/hadoop-1.2.1/hadoop-core-1.2.1.jar /home/hadoop-1.2.1/hbase/lib/
  
  并删除hbase自带的hadoop版本。

  将配置好的hbase拷贝到slave节点(192.168.2.52)



cd /home/hadoop-1.2.1
scp -r hbase root@192.168.2.52:/home/hadoop-1.2.1/
  
  启动hbase



cd /home/hbase/
bin/start-hbase.sh
  
  
启动成功,运行jps命令:



16572 Resin
30282 HMaster
5275 NameNode
5563 JobTracker
5461 SecondaryNameNode
5886 Jps
30470 HRegionServer
  
  
      其中HMaster即hbase的主进程。
  
五:安装nutch   
解压(注:这个不需要解压到hadoop根目录,因为nutch是才操作hadoop的,在master上有就可以了)



cd /home/
tar -zxvf apache-nutch-2.2.1-src.tar.gz //将nutch解压到home下
  



vim /home/nutch-2.2.1/ivy/ivy.xml
  
  将此行的注释去掉
将hbase-site.xml拷贝到nutch的配置文件(建立与hbase的联系???)
ant                注解:编译过程很慢,会去加载大量的jar包。
注入种子:     




mkdir urls
vim seed.txt
http://news.163.com/
http://www.gov.cn/
http://www.sbsm.gov.cn/
http://news.stnn.cc/china/
http://www.zaobao.com/wencui/social
http://www.xinhuanet.com/politics/1.htm
http://news.china.com.cn/shehui/node_7185045.htm
  
  上传的hdfs,完成种子url的注入




hadoop dfs -put urls urls
  
  修改采集规则:




regex-urlfilter.txt
# accept anything else
+^http://news.163.com/
+^http://www.sbsm.gov.cn/
+^http://www.gov.cn/
+^http://news.stnn.cc/china/
+^http://www.zaobao.com/wencui/social
+^http://www.xinhuanet.com/politics
+^http://news.xinhuanet.com/politics/\d+-\d+/\d+/c_\d+.htm
+^http://news.china.com.cn/\d+-\d+/\d+/content_\d+.htm
+^http://news.china.com.cn/shehui/node_\d+(_\d+)?.htm
  
  注解:conf 下面的配置文件都会被打包到ant后生成的job文件中,所以这里要提前修改(以后要是要注入新的采集规则需要解压job文件修改)
修改配置(集群环境运行)      




cd runtime/deploy
unzip -d apache-nutch-2.2.1 apache-nutch-2.2.1.job
rm apache-nutch-2.2.1.job
cd apache-nutch-2.2.1
rm lib/hbase-***.jar
cp /home/hadoop-1.2.1/hbase/hbase-0.92.1.jar lib
zip -r ../apache-nutch-2.1.job ./*
cd ..
rm -r apache-nutch-2.1
  
  运行命令:




cd runtime/deploy/bin
vim nutch 阅读shell发现:
# figure out which class to run
if [ "$COMMAND" = "crawl" ] ; then
class="org".apache.nutch.crawl.Crawler
  
  发现crawl命令运行Crawler类




vim org.apache.nutch.crawl.Crawler (参考这个命令找到那个Crawler类)
  
  得到命令格式为:




System.out.println("Usage: Crawler ( | -continue) [-solr ] [-threads n] [-depth i] [-topN N] [-numTasks N]");
cd /runtime/deploy
  
  于是运行如下命令:




bin/nutch crawl urls -topN 1000 -depth 50
  
  如果运气足够好,你会在Hbase shell 后 list 后 发现一个 'webpage' 表
附本人配置时候设置的 /etc/profile:




#java
export JAVA_HOME=/usr/java/jdk
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
#hadoop
export HADOOP_HOME=/home/hadoop-1.2.1
export PATH=$PATH:$HADOOP_HOME/bin
#zookeeper
export ZOOKEEPER_HOME=${HADOOP_HOME}/zookeeper
export PATH=${PATH}:${ZOOKEEPER_HOME}/bin
#hbase
export HBASE_HOME=/home/hadoop-1.2.1/hbase
export PATH=$PATH:$HBASE_HOME/bin
export CLASSPATH=$CLASSPATH:$HBASE_HOME/lib
#nutch 2.2
export NUTCH_HOME=/home/hadoop-1.2.1/nutch/runtime/local
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-85795-1-1.html 上篇帖子: [转载]使用Hadoop MapReduce 进行排序 下篇帖子: hadoop配置机架感知
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表