Perl爬虫的简单实现

bnhk · 发表于 2015-12-25 16:13:29

　　由于工作中有个项目需要爬取第三方网站的内容，所以在Linux下使用Perl写了个简单的爬虫。

相关工具
　　1. HttpWatch/浏览器开发人员工具
　　一般情况下这个工具是用不到的，但是如果你发现要爬取的内容在页面的HTML源码里找不到，如有的页面是通过AJAX异步请求数据的，这时候就需要HttpWatch之类的工具来找到实际的HTTP请求的URL了，当然现在很多浏览器都有开发人员工具（如Chrome, Firefox等），这样可以更方便查看所有请求的URL了。
　　2. curl/wget
　　这是爬虫中最重要的工具了，作用就是模拟浏览器的HTTP请求，从而获取数据。一般来说就是请求一个URL来获取相应的Web页面的HTML源码，还可以下载文件。使用curl和wget都可以很方便完成这个任务。
　　3. Perl
　　把页面爬下来后，就要从HTML中提取所需要的信息，这时候就要用到正则表达式了。我用的是Perl来编写爬虫脚本。之所以不使用Shell，是因为Shell的正则匹配功能还是太弱了。当然有很多脚本语言在正则匹配方面都很强大，如Python，如果你对这些脚本语言都不熟悉，相对而言，Perl会更容易上手一些。
　　4. 正则表达式
　　正则表达式的语法大部分都是通用的，但是不用的语言又会有些小的差别，下面列举Perl中正则表达式的一些重要的语法：
　　元字符 .
　　锚位 ^ $ \b
　　字符集  \d \w \s
　　量词 * ？ + {m,n}
　　分组 () (abc)*
　　择一匹配  |  (ab|bc)
　　捕获变量 ()
　　修饰符  /i /s /g

爬取步骤
　　下面以爬取某网站的手机App为例，说明一下爬取的步骤。
　　1. 爬取目录
　　假设我需要爬取的目录页是http://www.anzhi.com/sort_39_1_new.html，首先找到页索引和URL的规律，这个是很简单的，只需要把http://www.anzhi.com/sort_39__new.html中的替换为页索引即可。接下来，需要知道一共有多少页，才能知道爬取目录页什么时候时候完成。一般页面上会显示共多少页，但这里要爬的页面是没有的，那怎么办呢？可以通过人工的方式去看一共有多少页，还有一个方法是，爬取到某一页发现没有匹配的目录项了，就说明所有目录页已经爬完了。
　　把目录页爬取下来后，把二级页面的ULR通过正则匹配提取出来，写到数据库中，URL可以标识一个页面的唯一性，所以要保证写入数据的URL不重复。需要注意的是在HTML中的URL可能是相对路径，需要把URL补全。

　　大部分情况是需要增量爬取的，如每天只爬取新增的目录项，为了防止重复无效的爬取，选择的目录页最好是按更新时间排序的，这样只需要爬取有更新的前几页就可以了。那怎么知道哪些目录页是有更新的呢？如果目录项有更新时间的话，可以通过比较这个时间来确定。还有一种更简单的方法是，如果某一页所有的URL在数据库都存在了，说明这一页没有新的目录项了，可以停止爬取了。
　　2. 爬取详细信息
　　在第一步中已经把二级页面的URL爬取下来了，接下来就是要爬取详细信息了，如手机App的各种信息，截图和安装包的URL。对于文字信息是很容易在HTML中提取的，但对于安装包URL就不是一眼能找到的，这里的下载地址隐藏在JS中，如下图，在页面里提取到id后，就能拼出安装包URL。对于爬取完成的URL，在数据库中应该用状态字段标示其爬取完成，避免重复爬取。

　　3. 文件下载
　　有时候我们不仅要爬取文字信息，还需要下载图片或文件，比如这里我们还需要下载截图和安装包，在前一步中已经爬取了截图和安装包的URL，使用curl或wget可以很方便地进行文件下载。同样也需要状态字段来标示文件的下载状态。

通用和扩展
　　1. 通用爬取接口
　　为了减少一些爬取的重复代码，这里提取了一些公共代码，写了一个比较通用的爬取接口，需要注意的是，由于页面的编码和数据编码可能不一致，所以需要把页面的编码转化成数据库编码，否则写入数据就可能出现乱码。接口说明和代码如下：
　　调用方式：@results=&CrawlUrl($url, $page_charset, $expect_charset, \@regexs, \$crawl_result)
　　参数：URL，页面编码，期望编码，正则表达式数组，爬取是否成功（0成功，否则失败）
　　返回值：匹配结果二维数组（一个正则表达式可以匹配一组数据）
　　

1 #!/usr/bin/perl
2
3 sub ParseUrl
4 {
5    my $url=$_[0];
6    $url=~s/\[/\\\[/g;
7    $url=~s/\]/\\\]/g;
8    return $url;
9 }
10
11 sub CrawlUrl
12 {
13    my $url=$_[0];
14    my $page_charset=$_[1];
15    my $expect_charset=$_[2];
16    my $regex_ref=$_[3];
17    my $crawl_result_ref=$_[4];
18    my @regexs=@$regex_ref;
19    my @results;
20
21    my $file=`echo -n "$url" | md5sum | awk '{print \$1".htm"}'`;
22    chomp($file);
23    $url=&ParseUrl($url);
24    `curl -o "$file" "$url"`;
25    my $curl_result=`echo $?`;
26    chomp($curl_result);
27    if($curl_result!=0)
28    {
29       $$crawl_result_ref=1;
30       return @results;
31 }
32
33    my $html="";
34    if($page_charset ne "" && $expect_charset ne "" && $page_charset ne $expect_charset)
35    {
36       $html=`iconv -f $page_charset -t $expect_charset "$file"`;
37    }
38    else
39    {
40       $html=`cat "$file"`;
41    }
42    `rm -f $file`;
43
44    for(my $i=0;$i<=$#regexs;$i++)
45    {
46       my $reg=@regexs[$i];
47       my @matches=($html=~/$reg/sg);
48       $results[$i]=\@matches;
49    }
50
51    $$crawl_result_ref=0;
52    return @results;
53 }
　　
　　2. 爬虫通用性
　　我们可能需要爬去同一个类型的多个网站，比如我需要爬取数十个来源的手机App，如果每个网站都写一个特定的爬虫，会带来大量的编码工作，这时候就要考虑爬虫的通用性，如何让一套代码能够适应一类网站。这里采用的方法是把各个网站的差异化信息作为配置存储在数据库，如目录页URL、网站编码、各字段正则表达式等，这样爬虫通过读取这些配置就可以去适配不同的网站，达到一定的通用性。如果要新增一个网站的爬取，只需要增加相应的配置，而不需要修改任何代码。
　　3. 多进程爬取
　　如果要爬取的页面或要下载的文件数量比较大，会比较耗时，这时候可以考虑多个进程同时进行爬取。写一个进程控制模块，通过查询数据库中未爬取的URL和检测当前启用爬取的进程数，来确定是否启用新的进程，达到对多进程爬取的控制。
　　4. 代理
　　有些网站可能会限制IP的访问频率，如果对网站的爬取频率比较高，可能就会导致IP被封了，可以通过在多个代理服务器随机切换的方式来规避这个问题。为了避免代码重复，写了一个使用代理的wget封装的Shell工具。

1 #!/bin/bash
2
3 PROXY_HOST=(代理服务器列表)
4
5 function GetProxyStr()
6 {
7    rand=$(($RANDOM%(${#PROXY_HOST

}+1)))
8    if [ $rand -lt ${#PROXY_HOST

} ]
9    then
10       PROXY_STR="-e http_proxy=${PROXY_HOST[$rand]}"
11    fi
12 }
13
14 PROXY_STR=""
15 PATH_TYPE="$1"
16 FILE_PATH="$2"
17 URL="$3"
18
19 GetProxyStr
20 GetPath
21
22 wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" $PROXY_STR $PATH_TYPE "$FILE_PATH" "$URL"
　　
　　5. 监控
　　还有一个问题就是，如果爬虫是每天定时运行的，在网站目录页URL发生变化或页面改版了，爬取就会失败。这就要求对这些失败进行监控，在爬取页面失败或者正则匹配失败时，通过短信、邮件等方式进行告警。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Perl爬虫的简单实现

浏览过的版块

扫码加入运维网微信交流群