Python抓取页面中超链接(URL)的3中方法比较(HTMLParser、pyquery、正则表达式)

hyadijxp · 发表于 2017-5-8 10:56:16

HTMLParser版：
#!/usr/bin/python
# -*- coding: UTF-8 -*-

importHTMLParser

classUrlParser(HTMLParser.HTMLParser):
    def__init__(self):
        HTMLParser.HTMLParser.__init__(self)
        self.urls = []
    defhandle_starttag(self, tag, attrs):
        iftag == 'a':
            forname,value inattrs:
                ifname == 'href':
                    self.urls.append(value)
    defgeturls(self):
        returnself.urls

if__name__== '__main__':
    urls = []
    url = UrlParser()
    url.feed('1111111111<ahref="http://www.bccn.net">BCCN</a>2222222<a href="http://bbs.bccn.net">BCCN.BBS</a>333333333')
    urls += url.geturls()
    printurls

pyquery版：
#!/usr/bin/python
# -*- coding: UTF-8 -*-

frompyquery importPyQuery as pq

classUrlParser():
    def__init__(self):
        self.urls = []
    deffeed(self,data):
        d = pq(data)
        ifd.find('a'):
            #关于下面一行，我用d('a').attr('href')只能得到第一个URL，暂时只会用map，不知道有没有别的够pythonic的代码
            url = d('a').map(lambdai, e: pq(e)('a').attr('href'))
            foru inurl:
                self.urls.append(u)
    defgeturls(self):
        returnself.urls

if__name__== '__main__':
    urls = []
    url = UrlParser()
    url.feed('1111111111<ahref="http://www.bccn.net">BCCN</a>2222222<a href="http://bbs.bccn.net">BCCN.BBS</a>333333333')
    urls += url.geturls()
    printurls

正则表达式版：
#!/usr/bin/python
# -*- coding: UTF-8 -*-

importre

classUrlParser():
    def__init__(self):
        self.urls = []
    deffeed(self,data):
        url = re.findall(r'''<a(\s*)(.*?)(\s*)href(\s*)=(\s*)([\"\s]*)([^\"\']+?)([\"\s]+)(.*?)>''',data,re.S|re.I)
        foru inurl:
            self.urls.append(u[6])
    defgeturls(self):
        returnself.urls

if__name__== '__main__':
    urls = []
    url = UrlParser()
    url.feed('1111111111<ahref="http://www.bccn.net">BCCN</a>2222222<a href="http://bbs.bccn.net">BCCN.BBS</a>333333333')
    urls += url.geturls()
    printurls

速度比较：正则表达式 > pyquery > HTMLParser
测试的时候遍历大约1000个页面，正则表达式占绝对优势，这3个速度比例大约是 8:2:1
HTMLParser最慢，pyquery速度大约是它的2倍，正则的速度是它的8倍，看来以后如非必要不再考虑HTMLParser了，用起来也不如pyquery方便，正则速度倒是很快，功能也强大，前两者能提取的内容用正则全部都能实现，而正则能实现的功能前两者就不一定能实现了。只是正则的可读性不好。以后遇到数据量大的用正则表达式，数据量不大不考虑时间因素但逻辑复杂的的用pyquery，以后维护起来方便

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python抓取页面中超链接(URL)的3中方法比较(HTMLParser、pyquery、正则表达式)

浏览过的版块

扫码加入运维网微信交流群