查看: 836|回复: 0

[经验分享] 使用Perl语言写个简单的爬虫

尚未签到

发表于 2015-12-26 13:35:53 | 显示全部楼层 |阅读模式

　　之前用Scala和Go语言分别都写了一个爬虫，最近看了Perl，就来写个功能相同的版本。使用到了LWP::Simple模块，使用 cpan LWP安装即可（Ubuntu 13.04没有随Perl一同提供这个重要模块，太可惜了）。代码如下：

1 #!/usr/bin/perl
2 use LWP::Simple qw/get/;
3
4 my %pages;
5 print "Processing the index.\n";
6 $_ = get("http://www.yifan100.com/dir/15136/");
7 while(m#<a target="_blank" href="/article/(.*?)\.html" title="(.*?)" >#g){
8    $pages{$1}=$2;
9 }
10 for(keys %pages){
11    my ($l, $f) = ("http://www.yifan100.com/article/$_.html", "$_.txt");
12    open F, ">$f";
13    print "Processing $l.\n";
14    if(get($l) =~ m#<div class="artcontent">(.*)<div id="zhanwei">#s){
15       $_ = $1;
16       s#<br>#\n#g;
17       s#<.*?>##gs;
18       s#^\s+##g;
19       print "Writing to $f.\n";
20       print F;
21    }
22    close F;
23 }
　　显然，代码中用的是单线程（或者说单进程），全部执行完时间还是很多的（猜想主要是http下载时间比较长），之前用其他版本的测试时间也忘了。时间如下：

real 3m58.753s
user 0m0.900s
sys 0m0.632s
　　很明显使用Perl，代码少了很多（和Scala和Go相比），处理文本是Perl的优势所在。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表，该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有，请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意，请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息，一经发现立即删除。若您因此触犯法律，一切后果自负，我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集，我们仅提供一个展示、介绍、观摩学习的平台，我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责，亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏，不得用于商业或者其他用途，否则，一切后果均由您自己承担，我们对此不承担任何法律责任
7、如涉及侵犯版权等问题，请您及时通知我们，我们将立即采取措施予以解决
8、联系人Email：admin@iyunv.com 网址：www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址：https://www.yunweiku.com/thread-156591-1-1.html 上篇帖子：【脚本语言对比】BASH,PERL以及PYTHON 下篇帖子：在 Perl 中使用内联

使用道具举报