设为首页 收藏本站
查看: 779|回复: 0

使scrapy支持ftp下载

[复制链接]

尚未签到

发表于 2015-5-28 13:56:27 | 显示全部楼层 |阅读模式
  scrapy默认是只支持http,https这些个下载,不支持ftp的(用ftp下载文件),但实际项目需求千变万化,以为http,https已经能满足99%的需求了,但遇到那1%的也必须处理的,怎么办?
  好在scrapy提供插件支持,编写一个,就能搞定了。
  先提供我编写的这个插件。
  



#! -*- encoding:utf-8 -*-
#file is 'ftp.py', sys.path:'src.middleware.ftp.FtpDownloadHandler'
__author__ = 'C.L.TANG'
import urllib2
from scrapy.http import Response

class FtpDownloadHandler(object):
def download_request(self, request, spider):
"""Return a deferred for the HTTP download"""
handler = urllib2.FTPHandler()
req = urllib2.Request(url = request.url)
opener = urllib2.build_opener(handler)
f = opener.open(req)
b = f.read()
print len(b)
respcls = Response(url = request.url, body=b, request = request)
return respcls

  
  然后在自己项目的settings.py文件中指定:



DOWNLOAD_HANDLERS = {'ftp' :  'src.middleware.ftp.FtpDownloadHandler'}

  
  在爬虫类中有:



#! -*- encoding:utf-8 -*-
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.http import Request

class ShopSpider(CrawlSpider):
name = '958shop'
allowed_domains = ['958shop.com']
def start_requests(self):
request = Request(url = 'ftp://b9:b9@ftp.958shop.com/2011/11/15/52076863815926.jar')
request.callback = self.down_debug_html
return [request,]
def down_debug_html(self, response):
#在这里调用存入下载链接地址的方法.
#file_name =  response.meta['file_name']
print response.url
filename = 'debug.html'
open(filename, 'wb').write(response.body)

  执行程序运行就可以看到debug.html文件中一堆二进制文件了。
  我这里的实际执行图为:



2012-01-12 15:04:09+0800 [958shop] DEBUG: Crawled (200)  (referer: None)
ftp://b9:b9@ftp.958shop.com/2011/11/15/52076863815926.jar
2012-01-12 15:04:09+0800 [958shop] INFO: Closing spider (finished)
2012-01-12 15:04:09+0800 [958shop] INFO: Dumping spider stats:

  显示为crawled 200,表示成功了。
  这里有一个隐含的知识点,如果是文件成为这个回调函数的response对象,是不能在进行抽取操作的,否则在实例化抽取对象中会出现错误
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-71574-1-1.html 上篇帖子: C#版ftp方法实现类库代码 下篇帖子: python 从ftp下载数据
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表