Python抓取优酷视频（上）：爬虫使用及数据处理

xyzjr · 发表于 2015-4-20 12:55:47

缘起：

上篇因为工作需要（就是把腾讯新闻copy到单位自己网站上去每天15条更新）所以写了一个抓取腾讯新闻的python小脚本

这次是因为想用手机看youku视频，比如xiaoy的魔兽解说，但是打开浏览器输入game.youku.com的时候，三星9003太不

给力，因而需要一个打开速度快的目录小网站。

思路：

1.数据表设计：

　　id(int), //主键自增

　　title(varchar 50), //速度优先，只需要title，不需要图片

　　href(varchar 50), //视频播放地址

　　date(varchar 25), //采集的date中有如“1小时前”，因此也设计成varchar

2.采集函数设计：

　　视频列表页url = http://i.youku.com/u/UMTE0NDEzOTky/videos/order_1_view_1_page_id (id =1,2...)

　　每页视频个数为20，采集内容为title,href,date，优酷的html很规整，因此正则提取很好写，详见代码。

3.采集流程及入库：

　　采用多线程采集，开9个进程，每个进程提取一个列表页20个视频，总共采集180个视频，如果想全站采集的话修改即可。

　　数据库采用mysql，如何使python支持mysql详见Python网站建设，因为是多线程所以在插入数据的时候需要资源锁。

　　关于python多线程thread以及资源锁，可以参照Python模块学习。

代码：

1 #!/usr/bin/env python
2 #coding=utf-8
3 import urllib2
4 import re
5 import MySQLdb
6 import thread
7 import time
8 #创建锁，用于访问数据库
9 lock = thread.allocate_lock()
10 #抓取函数
11 def fetch(id=1,debug=False):
12    urlbase = 'http://i.youku.com/u/UMTE0NDEzOTky/videos/'
13    url = urlbase + 'order_1_view_1_page_' + str(id) + '/'
14    res = urllib2.urlopen(url).read()
15    abstarct = re.compile(r'

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python抓取优酷视频（上）：爬虫使用及数据处理

浏览过的版块

扫码加入运维网微信交流群