python爬取返利网中值得买中的数据(v1单线程，非scrapy框架)

医生猎人 · 发表于 2015-11-29 16:15:32

　　先使用以前的方法将返利网的数据爬取下来，scrapy框架还不熟练，明日再战scrapy
　　查找目标数据使用的是beautifulsoup模块。
　　1.观察网页，寻找规律
　　打开值得买这块内容
　　1>分析数据来源
　　网页上的数据分为一打开页面就存在的数据（源代码中可以看到的数据），
　　还有随着鼠标滑动，动态加载的数据（源代码中不显示的数据）。
　　2>查找规律
　　加载到最底端后，网页上面一共有50条相关数据，查看源代码，发现只有5条数据的源代码，剩下的数据全部是
　　动态加载出来的。分析这些动态数据：
　　F12打开Network这部分，刷新页面，鼠标不往下滑动时，并没有出现我们需要的后面的数据，随着鼠标滑动，
　　发现两个可能存有数据的项，发现只有ajaxGetItem...这个是我们所需要的，使用filter过滤一下。
　　

　　过滤后发现如下规律：
　　

　　 1-2是第6-10条，1-3是第11-15条......
　　

　　其他页也是这个规律，发现第二页中page参数那部分page=0-2,是从0打头的，我换成page=2-2后没有影响
　　所以规律就是把page部分换成对应的页数就好了。
　　2.代码
　　找到规律后，就可以写代码了。由于使用的是单线程，所以爬数据得到猴年马月了，太坑了，惭愧，以后慢慢再改进。
　　知识还是掌握的太少了，接触到scrapy后，觉得自己对爬虫这部分知道的仍然是冰山一角，什么深度广度，
　　分布式等等都接触不深，感觉自己太low了，长路漫漫漫，还有觉得scrapy好强，虽然好多用法都不造

1 # encoding=utf-8
2 import urllib2
3 from bs4 import BeautifulSoup
4 import time
5 # 返利网值得买页面的源代码中只包含5条数据，
6 # 其他的数据是动态加载的，每个页面包含50条数据
7
8 class FanLi():
9    def __init__(self):
10       self.user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
11       self.headers={'User-Agent':self.user_agent}
12    def get_url(self):
13
14       list_url=[]
15       for i in range(1,760):
16          # 可内容直接获取的url1
17          url1='http://zhide.fanli.com/p'+str(i)
18          list_url.append(url1)
19          for j in range(2,11):
20             url2='http://zhide.fanli.com/index/ajaxGetItem?cat_id=0&tag=&page='+str(i)+'-'+str(j)+'&area=0&tag_id=0&shop_id=0'
21             list_url.append(url2)
22       return list_url
23    def getHtml(self,url):
24       # url='http://zhide.fanli.com/p'+str(pageIndex)
25       try:
26          request=urllib2.Request(url,headers=self.headers)
27          response=urllib2.urlopen(request)
28          html=response.read()
29          return html
30       except urllib2.URLError,e:
31          if hasattr(e,'reason'):
32                print u"连接失败",e.reason
33                return  None
34    def parse(self):
35       urls=self.get_url()
36       i=0
37       # with open('zhide.txt',a) as f:
38       #    f.write()
39       for url in urls:
40          i=i+1
41          html=self.getHtml(url)
42          soup=BeautifulSoup(html,'html.parser')
43          divs=soup.find_all('div',class_='zdm-list-item J-item-wrap item-no-expired')
44
45          # for item in divs[0]:
46          #    print 'item'+str(item)
47
48          for div in divs:
49                con_list=[]
50                # 商品名称
51                title=div.find('h4').get_text()
52                # 分类
53                item_type=div.find('div',class_='item-type').a.string
54                # 推荐人
55                item_user=div.find('div',class_='item-user').string
56                # 内容
57                item_cont=div.find('div',class_='item-content').get_text(strip=True)
58                # 值得买人数
59                type_yes=div.find('a',attrs={'data-type':'yes'}).string
60                # 不值得买人数
61                type_no=div.find('a',attrs={'data-type':'no'}).string
62                con_list.append(title)
63                con_list.append(item_type)
64                con_list.append(item_user)
65                con_list.append(item_cont)
66                con_list.append(type_yes)
67                con_list.append(type_no)
68
69
70                f=open('zhide.txt','a')
71                for item in con_list:
72                   f.write(item.encode('utf-8')+'|')
73                f.write('\n')
74                f.close()
75          print 'sleeping loading %d'%i
76          time.sleep(3)
77
78
79
80
81 zhide=FanLi()
82 zhide.parse()
View Code　　各种不足之处，还望各位大神指正。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] python爬取返利网中值得买中的数据(v1单线程，非scrapy框架)

浏览过的版块

扫码加入运维网微信交流群