查看: 801|回复: 0

[经验分享] [Python]爬虫v0.1

尚未签到

发表于 2015-12-1 10:32:58 | 显示全部楼层 |阅读模式

#coding:utf-8
import urllib
######
#爬虫v0.1 利用urlib2 和字符串内建函数
######
# 获取网页内容
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def content(html):
# 内容分割的标签
str = '<article class="article-content">'
content = html.partition(str)[2]
str1 = '<div class="article-social">'
content = content.partition(str1)[0]
return content # 得到网页的内容
def title(content,beg = 0):
# 思路是利用str.index()和序列的切片
try:
title_list = []
while beg >=0:
num1 = content.index('】',beg)
num2 = content.index('</p>',num1)
title_list.append(content[num1:num2])
beg = num2
except ValueError:
return title_list

def get_title():
# 利用循环更新num1和num2，从而匹配出全部title
pass
content = content(getHtml("http://bohaishibei.com/post/10449/"))
#num = content.index('】')
title = title(content)
for i,e in enumerate(title):
print '第%d个，title：%s' % (i,e)
# 今天爬的单个页面的title
　　只是粗略的记录写爬虫的过程和思路，本来打算直播的，但是我们十一点断电断网。明天续写这个文章，直播写爬虫。哈哈哈，虽然基础，但是也是写出来吧。
　　

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表，该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有，请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意，请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息，一经发现立即删除。若您因此触犯法律，一切后果自负，我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集，我们仅提供一个展示、介绍、观摩学习的平台，我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责，亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏，不得用于商业或者其他用途，否则，一切后果均由您自己承担，我们对此不承担任何法律责任
7、如涉及侵犯版权等问题，请您及时通知我们，我们将立即采取措施予以解决
8、联系人Email：admin@iyunv.com 网址：www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址：https://www.yunweiku.com/thread-145767-1-1.html 上篇帖子： 2015/9/29 Python基础(20)：类的授权下篇帖子：深入 Python 列表的内部实现

使用道具举报