设为首页 收藏本站
查看: 1433|回复: 0

[经验分享] 简化日常工作系列之二

[复制链接]

尚未签到

发表于 2017-2-25 09:47:56 | 显示全部楼层 |阅读模式
  2.去跑一遍采集小说的脚本任务
为了减少依赖,之前采集小说的实现是两部分:
第一部分:nodejs去目录页抓取章节的url,写入txt文件存储。
第二部分:php利用封装的curl类和分析解析类去分别获取标题内容,写入HTML文件。
这样不仅要让进行定时任务的物理机或docker上要有php环境也要有nodejs环境。由于我擅长php,所以改为两部分全部由php完成。采集的完整代码可以见前面写过的采集类等博客。
  curl封装类beta版的博客记录: http://www.cnblogs.com/freephp/p/4962591.html.
优化curl封装类的博客记录: http://www.cnblogs.com/freephp/p/5112135.html.
  如果不熟悉的朋友,可以先看这部分博客后再阅读本文。
  
代码关键部分:



$menuUrl = 'http://www.zhuaji.org/read/2531/';
$menuContents = MyCurl::send($menuUrl, 'get');
$analyzer = new Analyzer();
$urls = $analyzer->getLinks($menuContents);
  后面再循环去curl每个章节页面,抓取和解析内容并写入文件即可。
代码简洁和可读性已经比较好了。现在我们考虑效率和性能问题。这个代码都是一次性下载完所有文件,唯一做去重判断都是在每次get到章节内容之后对比文件名是否存在。但已经做了一些无用费时的网络请求。目前该小说有578章,加上目录被爬一次,一共要发起578+1次get请求,以后小说还会不断增加章节,那么执行时间会更长。
  这个脚本最大的瓶颈就在网络消耗上。
  此脚本效率不高,每次都是把所有章节的页面都去爬一次,网络消耗很大。如果是第一次下载还好,毕竟要下载全部。如果是每天都执行,那么其实我是想增量地去下载前一天新增的章节。
  又有几个思路可以考虑:
1.我们要考虑每次执行之后最后一个被存下来的页面的id要记录下来。然后下一次就从这个id开始继续下载。
2.中间断掉也可以反复重新跑。(遵从第一条最后一句)
  这样就能从新增的页面去爬,减少了网络请求量,执行效率大幅提高。
  其实这个问题就变成想办法记录执行成功的最后一个章节id的问题了。
我们可以把这个id写入数据库,也可以写入文件。为了简单和少依赖,我决定还是写文件。
  单独封装一个获取最大id的函数,然后过滤掉已经下载的文件。完整代码如下:



function getMaxId() {
$idLogFiles = './biggestId.txt';
$biggestId = 0;
if (file_exists($idLogFiles)) {
$fp = fopen($idLogFiles, 'r');
$biggestId = trim(fread($fp, 1024));
fclose($fp);
}
return $biggestId;
}
/**
* ׼client to run
*/
set_time_limit(0);
require 'Analyzer.php';
$start = microtime(true);
$menuUrl = 'http://www.zhuaji.org/read/2531/';
$menuContents = MyCurl::send($menuUrl, 'get');
$biggestId = getMaxId() + 0;
$analyzer =new Analyzer();
$urls = $analyzer->getLinks($menuContents);
$ids = array();
foreach ($urls as $url) {
$parts = explode('.', $url);
array_push($ids, $parts[0]);
}
sort($ids, SORT_NUMERIC);
$newIds = array();
foreach ($ids as &$id) {
if ((int)$id > $biggestId) array_push($newIds, $id);
}
if (empty($newIds)) exit('nothing to download!');
foreach ($newIds as $id) {
$url = $id . '.html';
$res = MyCurl::send('http://www.zhuaji.org/read/2531/' . $url, 'get');
$title = $analyzer->getTitle($res)[1];
$content = $analyzer->getContent('div', 'content', $res)[0];
$allContents = $title . "<br/>". $content;
$filePath = 'D:/www/tempscript/juewangjiaoshi/' . $title . '.html';
if(!file_exists($filePath)) {
$analyzer->storeToFile($filePath, $allContents);
$idfp = fopen('biggestId.txt', 'w');
fwrite($idfp, $id);
fclose($idfp);
} else {
continue;
}
echo 'down the url:' , $url , "\r\n";
}
$end = microtime(true);
$cost = $end - $start;
echo "total cost time:" . round($cost, 3) . " seconds\r\n";
  加在windows定时任务或linux下的cron即可每天享受小说的乐趣,而不用每次手动去浏览网页浪费流量,解析后的html文件存文字版更舒服。不过这段代码在低版本的php下会报错,数组简化写法[44,3323,443]是在php5.4之后才出现的。
  之前下载完所有小说需要大概2分多钟。改进最终结果为:
DSC0000.png

  效果显著,我在/etc/crontab里面设置如下:



0 3 * * * root /usr/bin/php /data/scripts/tempscript/MyCurl.php >> /tmp/downNovel.log
  这个作者的小说真心不错,虽然后期写得很后宫和文字匮乏,常到12点还在更新,所以把每天定时任务放在凌晨3点采集之。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-346891-1-1.html 上篇帖子: npm更新到最新版本的方法 下篇帖子: 使用gulp来构建一个前端项目
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表