设为首页 收藏本站
查看: 965|回复: 0

[经验分享] 薛定谔的猫

[复制链接]

尚未签到

发表于 2017-2-24 06:49:17 | 显示全部楼层 |阅读模式
  看了几天的python语法,还是应该写个东西练练手。刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来。做完花了两三个小时,撸了这么一个程序。反正蛮简单的,思路和之前用nodejs写爬虫一样。
  爬虫的入口从分页的列表开始,比如美剧的列表第一页地址这样: http://www.ygdy8.net/html/gndy/oumei/list_7_1.html,第二页是http://www.ygdy8.net/html/gndy/oumei/list_7_2.html,是有规律的,所以就可以遍历所有的页面,分别抓取每页里面的影视资源,再进入每条电影的详情页面,抓取出下载地址,存到文件里。
  技术上用的是requests 和 BeautifulSoup两个模块。
  具体做法是,先从电影列表中定位每条资源中的IMDB(b)评分大于8分的资源,并且将结果放入movie对象中。
class Movie:  

  def __init__(self, name, url, score, link):
  self.name = name
  self.url = url
  self.score = score
  self.link = link
  

  def __str__(self):
  return '%s,\t%s分,\t%s' % (self.name, self.score, self.link)
  

  __repr__ = __str__
  

  
# 过滤资源
  
def filterMovie(url):
  resultList = []
  soup = getSoup(url)

  tables = soup.find_all('table',>  for table in tables:
  nameA = table.find('a', text=re.compile("《"))
  td = table.find('td', text=re.compile("IMD"))
  if td is not None:
  scoreStr = re.findall(r"评分 (.+?)/10", td.text)
  if(len(scoreStr) > 0):
  try:
  score = float(scoreStr[0])
  if(score > 8):
  name = nameA.text
  url = site + nameA['href']
  print('url:', url)
  print('title:', name)
  print('score:', score)
  downloadLink = getDownloadLink(url)
  movie = Movie(name, url, score, downloadLink)
  resultList.append(movie)
  except:
  print('error !!')
  return resultList
  其中的getDownloanLink(url)是进入电影详情页获取下载链接。
def getDownloadLink(url):  soup = getSoup(url)
  downloadTd = soup.find('td', attrs={"style": "WORD-WRAP: break-word"})
  downloadA = downloadTd.find('a')
  return downloadA['href']
  然后是将电影信息存入到文件data.txt中。
def saveInfo(movieList):  fileObj = open('data.txt', 'a')
  for movie in movieList:
  movie_str = str(movie)
  print('movie info:', movie_str)
  global lineNo
  fileObj.write('(' + str(lineNo) + ') ' + movie_str)
  fileObj.write('\n')
  fileObj.write('———————————')
  fileObj.write('\n')
  lineNo += 1
  fileObj.close()
  经过上面的步骤,即可将某一页的电影资源抓取到,并且存入文件中。
  程序的主入口,遍历列表即可。目前他们只有155页,就限制这么多页码。
if __name__ == '__main__':  for index in range(156):
  index += 1
  url = 'http://www.ygdy8.net/html/gndy/oumei/list_7_' + \
  str(index) + '.html'
  getPageResource(url)
  具体代码在github中,传送门,爬到的结果也放入代码仓库中了。有兴趣的,可以下载看看。
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-346305-1-1.html 上篇帖子: 致互联网--那些我浅尝则止的昙花 下篇帖子: 性能测试工具 wrk 安装与使用
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表