设为首页 收藏本站
查看: 955|回复: 0

[经验分享] Python下用Scrapy和MongoDB构建爬虫系统(1)

[复制链接]

尚未签到

发表于 2015-7-7 10:59:17 | 显示全部楼层 |阅读模式
  本文由 伯乐在线 - 木羊 翻译,xianhu 校稿。未经许可,禁止转载!
英文出处:realpython.com。欢迎加入翻译小组。
这篇文章将根据真实的兼职需求编写一个爬虫,用户想要一个Python程序从Stack Overflow抓取数据,获取新的问题(问题标题和URL)。抓取的数据应当存入MongoDB。值得注意的是,Stack Overflow已经提供了可用于读取同样数据的API。但是用户想要一个爬虫,那就给他一个爬虫。
像往常一样,在开始任何抓取工作前,一定要先查看该网站的使用/服务条款,要尊重 robots.txt 文件。抓取行为应该遵守道德,不要在很短时间内发起大量请求,从而导致网站遭受泛洪攻击。对待那些你要抓取的网站,要像对待自己的一样。
安装
我们需要Scrapy库(v0.24.4),以及用于在MongoDB中存储数据的PyMongo库(v2.7.2)。同样需要安装MongoDB。
Scrapy
如果使用OSX或某种Linux,使用pip安装Scrapy(激活命令行):



1


$ pip install Scrapy
如果使用Windows的机器,你需要手动安装一堆依赖库(木羊吐槽:Win下也是有pip的po主你不要黑她,经测可以用上面命令直接安装成功)。请参考官方文档详细说明以及我创建的Youtube视频。
一旦Scrapy安装完毕,可在Python命令行中使用这个命令验证:




1
2


>>> import scrapy
>>>
如果没有出错,安装就完成了。
PyMongo
下一步,使用pip安装PyMongo:



1


$ pip install pymongo
现在可以开始构建爬虫了。
Scrapy工程
先创建一个新的Scrapy工程:



1


$ scrapy startproject stack
这条命令创建了许多文件和文件夹,其中包含一套有助于你快速开始的基本模板:




1
2
3
4
5
6
7
8


├── scrapy.cfg
└── stack
    ├── __init__.py
    ├── items.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        └── __init__.py
提取数据
items.py文件用于定义存储“容器”,用来存储将要抓取的数据。
StackItem()类继承自Item (文档),主要包含一些Scrapy已经为我们创建好的预定义对象:



1
2
3
4
5
6


import scrapy

class StackItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass
添加一些想要收集的项。用户想要每条问题的标题和URL。那么,照这样更新items.py:



1
2
3
4
5


from scrapy.item import Item, Field

class StackItem(Item):
    title = Field()
    url = Field()
创建蜘蛛
在“spiders”目录下建立一个名为stack_spider.py的文件。这里是见证奇迹发生的地方—-比如在这里告诉Scrapy怎么去找到我们想要的指定数据。正如你想的那样,对于每一个独立的网页,stack_spider.py都是不同的。
我们从定义一个类开始,这个类继承Scrapy的Spider,并添加一些必须的属性:



1
2
3
4
5
6
7
8
9


from scrapy import Spider


class StackSpider(Spider):
    name = "stack"
    allowed_domains = ["stackoverflow.com"]
    start_urls = [
        "http://stackoverflow.com/questions?pagesize=50&sort=newest",
    ]
最初一些变量的含义很容易理解(文档):

  • 定义蜘蛛的名字。
  • allowed_domains 包含构成许可域的基础URL,供蜘蛛去爬。
  • start_urls 是一个URL列表,蜘蛛从这里开始爬。蜘蛛从start_urls中的URL下载数据,所有后续的URL将从这些数据中获取。
XPath选择器
接下来,Scrapy使用XPath选择器在一个网站上提取数据。也就是说,我们可以通过一个给定的XPath选择HTML数据的特定部分。正如Scrapy所称,“XPath是一种选择XML节点的语言,也可以用于HTML。”
使用Chrome的开发者工具,可以很容易找到一个特定的Xpath。简单地检查一个特定的HTML元素,复制XPath,然后修改(如有需要)。
DSC0000.jpg
开发者工具同时为用户提供在JavaScript控制台测试XPath选择器的功能,使用$x,如$x("//img"):
DSC0001.jpg
继续,通过定义的XPath告诉Scrapy去哪里寻找信息。在Chrom中导航至Stack Overflow网址,寻找XPath选择器。
DSC0002.jpg
右键点击第一条问题,选择“插入元素”:
现在从, //*[@id="question-summary-27624141"]/div[2]中抓取XPath,然后在JavaScript控制台测试它:
DSC0003.jpg
也许你会说,这只选择了一条问题。现在需要改变XPath去抓取所有的问题。有什么想法?很简单://div[@class="summary"]/h3。
什么意思呢?本质上,这条XPath是说:抓取的子树中所有这一类元素的总集。在JavaScript控制台中测试XPath。
请注意我们不会使用Chrome开发者工具的实际输出。在大多数案例中,这些输出仅仅是一个参考,便于直接找到能用的XPath。
现在更新stack_spider.py脚本:



1
2
3
4
5
6
7
8
9
10
11
12
13


from scrapy import Spider
from scrapy.selector import Selector


class StackSpider(Spider):
    name = "stack"
    allowed_domains = ["stackoverflow.com"]
    start_urls = [
        "http://stackoverflow.com/questions?pagesize=50&sort=newest",
    ]

    def parse(self, response):
        questions = Selector(response).xpath('//div[@class="summary"]/h3')
提取数据
我们仍然需要解析和抓取想要的数据,它符合

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-84063-1-1.html 上篇帖子: .MongoDB管理工具 MongoCola1.2.4 发布 新年快乐 下篇帖子: MongoDB数据类型
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表