设为首页 收藏本站
查看: 832|回复: 0

[经验分享] 学习python之改造改造数据抓取程序为多线程

[复制链接]

尚未签到

发表于 2017-5-5 09:41:21 | 显示全部楼层 |阅读模式
  前面的数据抓取程序虽然完工了,但是运行中发现,每定时运行一次需要几十秒,有点太慢,查阅资料,希望能改成多线程的,加快运行速度。查了以后知道python里面多线程可以用queue来弄成队列。
  经过搜索以后找到的python多线程、线程池参考内容如下:
  中国的:http://prokee.com/?p=4
  外国的:http://www.davidnaylor.co.uk/threaded-data-collection-with-python-including-examples.html
  上面两个很相似到差不多雷同的样子,区别仅仅是中文、英文的问题,都是伪代码,可能相互借鉴过。
  下面这个例子可以使用,是rss的东西
  http://www.doughellmann.com/PyMOTW/Queue/
  下面这个是涉及sqlite,可以运行。
  http://stackoverflow.com/questions/1506023/duplicate-insertions-in-database-using-sqlite-sqlalchemy-python
  里面指出是参考了下面的文章,下面这个也可以运行。
  http://www.halotis.com/2009/07/07/how-to-get-rss-content-into-an-sqlite-database-with-python-fast/
  看完参考资料,那就开始动手,把线程池import进来,然后改动程序,实际上我们需要多线程的就是urlopen这一部分,程序的数据库写入部分每次就一百多条,实际测试花不了1秒,不必改。其他的部分多线程提高不了多大效率。
  首先根据上面的参考资料,多线程的主要结构如下:

THREAD_LIMIT = 20
jobs = Queue.Queue(0)
#定义全局变量c,用于storedata使用
#c在dealwithdatat的时候进行修改
global c
c=[{},{},{},{},{}]
#Rest of file completes the threading process     
def thread():
while True:
try:
url = jobs.get(False) # False = Don't wait
except Queue.Empty:
return
xml=get_datat(url)   
#print xml
#处理数据写入c里面供storedatat使用
dealwith_datat(xml)
def q1(url_price):
for i in url_price.keys(): # Queue them up
#print i,url_price
jobs.put(url_price)
for n in xrange(THREAD_LIMIT):
t = threading.Thread(target=thread)
t.start()
print n
while threading.activeCount() > 1 or not jobs.empty():
print datetime.datetime.now()
time.sleep(1)

  上面getdatat为改过的抓取函数,原来的函数是一次获取所有的地址,循环抓取,这里改成每次读一个地址。线程中最大线程数为20,利用了queue,实现了线程的复用。

def get_datat(url):
xmlr = urllib2.Request(url)
price = urllib2.urlopen(xmlr)
p_xml=price.read()
price.close()     
return p_xml
  deal_withdatat则是改过的处理函数,这次是每次抓取一个地址的数据,所以处理函数改为每次处理一个,这里设定了一个全局变量c,处理之后的数据直接存放在c中需要注意的是c必须实例化,而不能仅仅定义一下。

global c
c=[{},{},{},{},{}]
def dealwith_datat(price):
"""正则处理页面获取有效数据"""
temp1={}
temp2={}
temp3={}
temp4={}
temp5={}
xmlprice=re.findall(re.compile(r"<price>(\d+)</price>"),price)
iii1=re.findall(re.compile(r"<iid>(\d+)</iid>"),price)
iii=iii1[0]
print iii
#print xmlprice 中出现最多的价格
zuiduo={}
for i in xmlprice:
try:
zuiduo+=1
except:
zuiduo=1
for i in zuiduo.keys():
if zuiduo==max(zuiduo.values()):
#print i,zuiduo
temp4[iii]=i
temp5[iii]=zuiduo
xmlprice=[int(i)for i in xmlprice]
temp1[iii]=min(xmlprice)
temp2[iii]=max(xmlprice)
temp3[iii]=xmlprice[-1]
#return    temp1,temp2,temp5,temp4,temp3   
c[0][iii]=temp1[iii]
c[1][iii]=temp2[iii]
c[2][iii]=temp5[iii]
c[3][iii]=temp4[iii]
c[4][iii]=temp3[iii]

  改造后的deal_withdatat最终返回的结果仍与原函数一致,但是每次读取的仅仅是一个地址的数据。
  这样完成了多线程抓取,原来需要30秒以上的抓取过程现在仅需要几秒就能完成

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-373277-1-1.html 上篇帖子: [Python入门及进阶笔记00]-写在前面(目录/书籍/学习路线/其他) 下篇帖子: 小毛thinking:why c# sucks and python rocks
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表