设为首页 收藏本站
查看: 667|回复: 0

[经验分享] centos7 pyspider环境安装

[复制链接]

尚未签到

发表于 2018-4-21 08:21:22 | 显示全部楼层 |阅读模式
    PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。
  网上的参考文档:
  http://www.jianshu.com/p/8eb248697475
  http://cuiqingcai.com/2652.html
  https://yq.aliyun.com/articles/75518
1.搭建环境:
  python版本:3.6.3
  系统环境:centos7.3

  

1.1.搭建python3环境:
  # 下载依赖
  yum install -y ncurses-devel openssl openssl-devel zlib-devel gcc make glibc-devel libffi-devel glibc-static glibc-utils sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel libcurl-devel
  

  # 下载python
  wget https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz
  
#解压
  tar -xf Python-3.6.3.tgz
  

  #编译安装
  ./configure --prefix=/usr/local/python3.6 --enable-shared
  make && make install

  

  # 建立软链接
  ln -s /usr/local/python3.6/bin/python3 /usr/bin/python3
  echo "/usr/local/python3.6/lib" > /etc/ld.so.conf.d/python3.5.conf
  ldconfig
  

  # 验证python3
[root@ceph-host-01 local]# python3

  Python 3.6.3 (default, Oct  9 2017, 04:01:24)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-16)] on linux

  Type "help", "copyright", "credits" or "license" for more information.
  >>>
  

  #pip
  /usr/local/python3.6/bin/pip3 install --upgrade pip
  ln -s /usr/local/python3.6/bin/pip /usr/bin/pip
  

1.2.安装pyspider
  pip install pyspider

  

启动python中的pycurl模块出现如下问题:

ImportError: pycurl: libcurl link-time ssl backend (nss) is different from compile-time ssl backend (none/other)
  解决方法:
  pip uninstall pycurl
export PYCURL_SSL_LIBRARY=nss
pip install pycurl
  

  
1.3.安装phantomjs
  官网下载:http://phantomjs.org/download.html
  wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
  解压:
  yum -y install unbzip2
  bzip2 -d phantomjs-2.1.1-linux-x86_64.tar.bz2
  tar -xf phantomjs-2.1.1-linux-x86_64.tar
  mv phantomjs-2.1.1-linux-x86_64 phantomjs
  ln -sv /usr/local/phantomjs/bin/phantomjs /usr/bin/phantomjs
  

1.4.启动pyspider
  由于放在公网,编辑了一个配置文件config.json ,用于登录认证
[root@ceph-host-01 local]# vim config.json

  

  {
  "webui": {
  "port": "5000",
  "username": "abc",
  "password": "123456",
  "need-auth": true
  }
  }
  开启进程
  nohup pyspider --config config.json &
  

  进入web界面:
DSC0000.png

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-449825-1-1.html 上篇帖子: Centos 6.8 安装lnmp+ zabbix3.0.2 下篇帖子: Centos7 docker push 推送失败
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表