设为首页 收藏本站
查看: 765|回复: 0

[经验分享] python解析网页中javascript动态添加的内容(一)

[复制链接]

尚未签到

发表于 2015-4-27 09:43:10 | 显示全部楼层 |阅读模式
  最近,想从中国天气网上抓取数据,其中的网页上的实时天气是使用javascript生成的,用简单的标签解析不到。原因是,那个标签压根就没再网页当中。
  所以,google了下python怎么区解析动态网页,下面文章对我很有帮助。
转载记录:Python在Web Page抓取、JS解析方面的介绍
  因为我只希望在mac下解析,所以我并没有使用扩平台的库。在使用spidermonkey后,发现它还是很全面,比如document.write就无法执行(如果我的认识有错误,请指出,谢谢)。我将目光落在了pywebkitgtk上,可惜安装不成功,逼迫我放弃了(我有考虑过使用pyv8,但是还是放弃了)。
  在经历了失败后,我还是从homebrew这个神器上发现了希望。它可以帮你安装pyqt,可能知道它是一个python的界面库,但是它同样拥有网络模块(webkit),当然也可以使用它来解析网页。
  我将分析一下我解析动态网页的过程,此过程实现多于原理学习:
  第一步:解析静态网页标签



1
2
3
4 javascript测试网页
5
6     
7
8
9
10
  上面是测试用的html代码,我将解析它的title标签,很简单,呵呵~



1 #! /usr/bin/env python
2
3 from htmlentitydefs import entitydefs
4 from HTMLParser import HTMLParser
5 import sys,urllib2
6
7 class DataParser(HTMLParser):
8               def __init__(self):
9                             self.title = None
10                             self.isTag = 0
11                             HTMLParser.__init__(self)
12
13               def handle_starttag(self,tag,attrs):
14                             if tag == 'title':
15                                           self.isTag = 1
16
17
18               def handle_data(self,data):
19                             if self.isTag:
20                                           self.title = data
21
22               def handle_endtag(self,tag):
23                             if tag == 'title':
24                                           self.isTag = 0
25               def getTitle(self):
26                             return self.title
27
28 url = 'file:///Users/myName/Desktop/pyqt/2.html'
29 #''中内容用浏览器打开,直接复制地址栏的内容即可
30 req = urllib2.Request(url)
31 fd = urllib2.urlopen(req)
32 parser = DataParser()
33 parser.feed(fd.read())
34 print "Title is:",parser.getTitle()
  结果是:
DSC0000.png
  第二步 安装库
  1.我假设你已经安装了python。
  2.在开始解析动态网页之前,先要安装pyqt,让brew去替你安装,能帮你节省很多精力。。。
DSC0001.png
  了解更多homebrew,请访问官网:homebrew官网
  3.说明:本来pyqt是一个GUI库,但它包含了网络模块webkit,这个将用于解析动态网页。
  第三步 解析javascript动态标签
  1.有很多标签是动态添加到html网页中的,所以有时候用python去执行javascript可能不能达到条件,比如动态添加的标签,所以获得执行后dom树是一种比较通用的方法。(可能理解不正确,如果不对,请指正)。
  2.来写一个给上面html文件外部调用的js文件。



1 alert("这是被调用的语句。")
2 var o = document.body;
3 function createDIV(text)
4 {
5     var div = document.createElement("div");
6     div.innerHTML = text;
7     o.appendChild(div);
8 }
9 createDIV("15");
  3.此时,双击2.html,看到的效果是:
DSC0002.png
  只有一个15,这就是我们要解析的数据,现在再来看下浏览器显示的源码:
DSC0003.png
  是不是没有div标签,所以现在解析,不可能获取到的,应为div是5757.js添加上去的(js名字乱取的)~
  下面就开始解析,我的问题解决受益于这篇文章,希望大家也能看看:Scraping JavaScript webpages with webkit
  我们要利用webkit获取执行后的dom树:



1 #! /usr/bin/env python
2
3 import sys,urllib2
4 from HTMLParser import HTMLParser
5 from PyQt4.QtCore import *
6 from PyQt4.QtGui import *
7 from PyQt4.QtWebKit import *
8
9 class Render(QWebPage):  
10   def __init__(self, url):  
11     self.app = QApplication(sys.argv)  
12     QWebPage.__init__(self)  
13     self.loadFinished.connect(self._loadFinished)  
14     self.mainFrame().load(QUrl(url))  
15     self.app.exec_()  
16   
17   def _loadFinished(self, result):  
18     self.frame = self.mainFrame()  
19     self.app.quit()  
20   
21 url = './2.html'  
22 r = Render(url)  
23 html = r.frame.toHtml()
24 print html.toUtf8()
25
26 # 将执行后的代码写入文件中
27 f = open('./test.txt','w')
28 f.write(html.toUtf8())
29 f.close()
  我显示print出来结果,后又将结果写入test.txt文件。现在来看看test.txt中有什么(不要双击,否则只有一个15,用你的文本编辑器去查看,比如:sublime text2):



1
2
3
4 javascript测试网页
5
6     
7
8 15
9
10
  看起来像html代码,但是得到了我想要的东西,注意第八行,出现了div标签~。
  最后一步,获取那个15。
  停一下,想一下我们怎么去获取:



1 html = r.frame.toHtml()
  得到一个QString对象,它不属于python标准库。我想在我熟悉pyqt的始末之前,将它转换成python对象让我感到更加自在一点。我们可以像解析静态网页般区解析它,关键在于这一句:



1 parser.feed(fd.read())
  当然既然能将它写入到本地文件,打开文件->解析文件->获取数据也是可以的,但我想没人想那么麻烦。
  查阅一下python的文档:



1 HTMLParser.feed(data)
2
3 Feed some text to the parser. It is processed insofar as it consists of complete elements; incomplete data is buffered until more data is fed or close() is called.data can be either unicode or str, but passing unicode is advised.
  发现只要将unicode或str传入,我们就能顺利解析,也许稍微改动下代码即可:



1 ! /usr/bin/env python
2
3
4 import sys,urllib2
5 from HTMLParser import HTMLParser
6 from PyQt4.QtCore import *
7 from PyQt4.QtGui import *
8 from PyQt4.QtWebKit import *
9
10 class DataParser(HTMLParser):
11               def __init__(self):
12                             self.div = None
13                             self.isTag = 0
14                             HTMLParser.__init__(self)
15
16               def handle_starttag(self,tag,attrs):
17                             if tag == 'div':
18                                           self.isTag = 1
19
20
21               def handle_data(self,data):
22                             if self.isTag:
23                                           self.title = data
24
25               def handle_endtag(self,tag):
26                             if tag == 'div':
27                                           self.isTag = 0
28               def getDiv(self):
29                             return self.title
30
31
32 class Render(QWebPage):  
33   def __init__(self, url):  
34     self.app = QApplication(sys.argv)  
35     QWebPage.__init__(self)  
36     self.loadFinished.connect(self._loadFinished)  
37     self.mainFrame().load(QUrl(url))  
38     self.app.exec_()  
39   
40   def _loadFinished(self, result):  
41     self.frame = self.mainFrame()  
42     self.app.quit()  
43   
44 url = './2.html'  
45 r = Render(url)  
46 html = r.frame.toHtml()
47 #print html.toUtf8()
48
49 parser = DataParser()
50 parser.feed(str(html.toUtf8()))
51 print "javascript is",parser.getDiv()
52
53
54 #f = open('./test.txt','w')
55 #f.write(html.toUtf8())
56 #f.close()
  代码做了简单的合并,就将数据解析出来了,运行结果如下:
DSC0004.png
  呵呵,虽然只有3个词,但的确成功解析了动态标签,呵呵~
  第四步 想说的话
  文章的实现多于原理,希望对阅读文章的人提供一定的帮助。如有不对的地方也请指正。
  当然,要将文章的东西直接运用到实际是不现实的,但希望这是一个好的起点。
  
  
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-61057-1-1.html 上篇帖子: python 解析xml文档 下篇帖子: Python 中的POST/GET包构建以及随机字符串的生成。Python 初级应用
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表