设为首页 收藏本站
查看: 1551|回复: 0

[经验分享] Perl爬虫的简单实现

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-12-25 16:13:29 | 显示全部楼层 |阅读模式
  由于工作中有个项目需要爬取第三方网站的内容,所以在Linux下使用Perl写了个简单的爬虫。

相关工具
  1. HttpWatch/浏览器开发人员工具
  一般情况下这个工具是用不到的,但是如果你发现要爬取的内容在页面的HTML源码里找不到,如有的页面是通过AJAX异步请求数据的,这时候就需要HttpWatch之类的工具来找到实际的HTTP请求的URL了,当然现在很多浏览器都有开发人员工具(如Chrome, Firefox等),这样可以更方便查看所有请求的URL了。
  2. curl/wget
  这是爬虫中最重要的工具了,作用就是模拟浏览器的HTTP请求,从而获取数据。一般来说就是请求一个URL来获取相应的Web页面的HTML源码,还可以下载文件。使用curl和wget都可以很方便完成这个任务。
  3. Perl
  把页面爬下来后,就要从HTML中提取所需要的信息,这时候就要用到正则表达式了。我用的是Perl来编写爬虫脚本。之所以不使用Shell,是因为Shell的正则匹配功能还是太弱了。当然有很多脚本语言在正则匹配方面都很强大,如Python,如果你对这些脚本语言都不熟悉,相对而言,Perl会更容易上手一些。
  4. 正则表达式
  正则表达式的语法大部分都是通用的,但是不用的语言又会有些小的差别,下面列举Perl中正则表达式的一些重要的语法:
  元字符 .
  锚位 ^ $ \b
  字符集  \d \w \s
  量词 * ? + {m,n}
  分组 () (abc)*
  择一匹配  |  (ab|bc)
  捕获变量 ()
  修饰符  /i /s /g

爬取步骤
  下面以爬取某网站的手机App为例,说明一下爬取的步骤。
  1. 爬取目录
  假设我需要爬取的目录页是http://www.anzhi.com/sort_39_1_new.html,首先找到页索引和URL的规律,这个是很简单的,只需要把http://www.anzhi.com/sort_39__new.html中的替换为页索引即可。接下来,需要知道一共有多少页,才能知道爬取目录页什么时候时候完成。一般页面上会显示共多少页,但这里要爬的页面是没有的,那怎么办呢?可以通过人工的方式去看一共有多少页,还有一个方法是,爬取到某一页发现没有匹配的目录项了,就说明所有目录页已经爬完了。
  把目录页爬取下来后,把二级页面的ULR通过正则匹配提取出来,写到数据库中,URL可以标识一个页面的唯一性,所以要保证写入数据的URL不重复。需要注意的是在HTML中的URL可能是相对路径,需要把URL补全。
DSC0000.png
DSC0001.png
  大部分情况是需要增量爬取的,如每天只爬取新增的目录项,为了防止重复无效的爬取,选择的目录页最好是按更新时间排序的,这样只需要爬取有更新的前几页就可以了。那怎么知道哪些目录页是有更新的呢?如果目录项有更新时间的话,可以通过比较这个时间来确定。还有一种更简单的方法是,如果某一页所有的URL在数据库都存在了,说明这一页没有新的目录项了,可以停止爬取了。
  2. 爬取详细信息
  在第一步中已经把二级页面的URL爬取下来了,接下来就是要爬取详细信息了,如手机App的各种信息,截图和安装包的URL。对于文字信息是很容易在HTML中提取的,但对于安装包URL就不是一眼能找到的,这里的下载地址隐藏在JS中,如下图,在页面里提取到id后,就能拼出安装包URL。对于爬取完成的URL,在数据库中应该用状态字段标示其爬取完成,避免重复爬取。
DSC0002.png
DSC0003.png
DSC0004.png
DSC0005.png
  3. 文件下载
  有时候我们不仅要爬取文字信息,还需要下载图片或文件,比如这里我们还需要下载截图和安装包,在前一步中已经爬取了截图和安装包的URL,使用curl或wget可以很方便地进行文件下载。同样也需要状态字段来标示文件的下载状态。

通用和扩展
  1. 通用爬取接口
  为了减少一些爬取的重复代码,这里提取了一些公共代码,写了一个比较通用的爬取接口,需要注意的是,由于页面的编码和数据编码可能不一致,所以需要把页面的编码转化成数据库编码,否则写入数据就可能出现乱码。接口说明和代码如下:
  调用方式:@results=&CrawlUrl($url, $page_charset, $expect_charset, \@regexs, \$crawl_result)
  参数:URL,页面编码,期望编码,正则表达式数组,爬取是否成功(0成功,否则失败)
  返回值:匹配结果二维数组(一个正则表达式可以匹配一组数据)
  



1 #!/usr/bin/perl
2
3 sub ParseUrl
4 {
5     my $url=$_[0];
6     $url=~s/\[/\\\[/g;
7     $url=~s/\]/\\\]/g;
8     return $url;
9 }
10
11 sub CrawlUrl
12 {
13     my $url=$_[0];
14     my $page_charset=$_[1];
15     my $expect_charset=$_[2];
16     my $regex_ref=$_[3];
17     my $crawl_result_ref=$_[4];
18     my @regexs=@$regex_ref;
19     my @results;
20   
21     my $file=`echo -n "$url" | md5sum | awk '{print \$1".htm"}'`;
22     chomp($file);
23     $url=&ParseUrl($url);
24     `curl -o "$file" "$url"`;
25     my $curl_result=`echo $?`;
26     chomp($curl_result);
27     if($curl_result!=0)
28     {
29         $$crawl_result_ref=1;
30         return @results;
31 }
32
33     my $html="";
34     if($page_charset ne "" && $expect_charset ne "" && $page_charset ne $expect_charset)
35     {
36         $html=`iconv -f $page_charset -t $expect_charset "$file"`;
37     }
38     else
39     {
40         $html=`cat "$file"`;
41     }
42     `rm -f $file`;
43
44     for(my $i=0;$i<=$#regexs;$i++)
45     {
46         my $reg=@regexs[$i];
47         my @matches=($html=~/$reg/sg);
48         $results[$i]=\@matches;
49     }
50
51     $$crawl_result_ref=0;
52     return @results;
53 }
  
  2. 爬虫通用性
  我们可能需要爬去同一个类型的多个网站,比如我需要爬取数十个来源的手机App,如果每个网站都写一个特定的爬虫,会带来大量的编码工作,这时候就要考虑爬虫的通用性,如何让一套代码能够适应一类网站。这里采用的方法是把各个网站的差异化信息作为配置存储在数据库,如目录页URL、网站编码、各字段正则表达式等,这样爬虫通过读取这些配置就可以去适配不同的网站,达到一定的通用性。如果要新增一个网站的爬取,只需要增加相应的配置,而不需要修改任何代码。
  3. 多进程爬取
  如果要爬取的页面或要下载的文件数量比较大,会比较耗时,这时候可以考虑多个进程同时进行爬取。写一个进程控制模块,通过查询数据库中未爬取的URL和检测当前启用爬取的进程数,来确定是否启用新的进程,达到对多进程爬取的控制。
  4. 代理
  有些网站可能会限制IP的访问频率,如果对网站的爬取频率比较高,可能就会导致IP被封了,可以通过在多个代理服务器随机切换的方式来规避这个问题。为了避免代码重复,写了一个使用代理的wget封装的Shell工具。



1 #!/bin/bash
2
3 PROXY_HOST=(代理服务器列表)
4
5 function GetProxyStr()
6 {
7     rand=$(($RANDOM%(${#PROXY_HOST
  • }+1)))
    8     if [ $rand -lt ${#PROXY_HOST
  • } ]
    9     then
    10         PROXY_STR="-e http_proxy=${PROXY_HOST[$rand]}"
    11     fi
    12 }
    13
    14 PROXY_STR=""
    15 PATH_TYPE="$1"
    16 FILE_PATH="$2"
    17 URL="$3"
    18
    19 GetProxyStr
    20 GetPath
    21
    22 wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" $PROXY_STR $PATH_TYPE "$FILE_PATH" "$URL"
      
      5. 监控
      还有一个问题就是,如果爬虫是每天定时运行的,在网站目录页URL发生变化或页面改版了,爬取就会失败。这就要求对这些失败进行监控,在爬取页面失败或者正则匹配失败时,通过短信、邮件等方式进行告警。

  • 运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
    2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
    3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
    4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
    5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
    6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
    7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
    8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

    所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-156328-1-1.html 上篇帖子: The ABC of Perl : My First Perl Program 下篇帖子: Perl在线教程(10——14 课)
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    扫码加入运维网微信交流群X

    扫码加入运维网微信交流群

    扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

    扫描微信二维码查看详情

    客服E-mail:kefu@iyunv.com 客服QQ:1061981298


    QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


    提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


    本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



    合作伙伴: 青云cloud

    快速回复 返回顶部 返回列表