简单高效的nodejs爬虫模型

lchl0388 · 发表于 2017-2-23 07:22:56

　　这篇文章讲解一下yunshare项目的爬虫模型。
　　使用nodejs开发爬虫很简单，不需要类似python的scrapy这样的爬虫框架，只需要用request或者superagent这样的http库就能完成大部分的爬虫工作了。
　　使用nodejs开发爬虫半年左右了，爬虫可以很简单，也可以很复杂。简单的爬虫定向爬取一个网站，可能有个几万或者几十万的页面请求，复杂的爬虫类似google bot这样搜索引擎的蜘蛛爬虫，要每时每刻爬取互联网上最新的内容。
　　一般的个人开发者都是用爬虫定向爬取一些网站，然后提取一些结构化的数据，使用api接口获取数据也可以归到这一类。如果想简单的练习爬虫技术，可以尝试爬取豆瓣电影数据和书籍数据的，使用api接口和爬取html页面都能完成这个任务。
　　爬虫的说白了就是一个http客户端，通过http协议和远程http服务器通信，获取html页面内容或者其他的种子文件，pdf文件等等。和浏览器不同的一点就是爬虫不会把抓取的内容渲染出来，而是解析页面内容然后保存到数据库里面。
　　在开始学习爬虫的时候我考虑的是怎么爬取html页面内容，怎么解析html页面之间的链接规则，后来遇到了页面编码的问题。

统一utf8编码
　　国内网站主要是使用html和gbk这两种编码方式，解决编码有两种思路，第一个是在获取页面内容的时候根据页面的<meta charset='gbk'>编码把内容统一转码成utf8的，因为nodejs字符串默认编码就是utf8。
　　这个方案充满了不确定性。
　　问题1：不同网站的指定编码的方式不一样，除了前面提到的那种方式，还有<meta http-equiv="Content-Type" content="text/html; ">这种方式指定编码，这个问题还不是很大，很多的http工具库都能正确的解析这两种编码，问题是还有很多网站没有指定编码，又或者指定的编码和文件的实际编码不一致（遇到过真实的案例）。
　　问题2：如果你把gbk编码的html文件转成utf8编码保存到本地，用浏览器直接打开这个文件的时候会显示乱码，非常不利于开发过程中的查找问题。

不转码html内容
　　既然前面的方案有这么多的问题，剩下的方法就是把html内容直接按照原来的编码保存到本地，然后解析的时候指定编码。
　　这个方法有2个好处：1、简化了爬虫模型，2、可以用浏览器打开html文件，不会乱码。唯一的缺点是不同网站文件内容解析的时候似乎需要指定编码，对于小规模爬虫这个问题其实影响不大。

统一爬虫模型
　　前面的编码方案解决了爬取不同网站html文件的编码问题，我们可以用一个统一的爬虫方法爬取不同网站的内容，那如果你想爬取非html内容呢？
　　是不是又要重新写一个爬虫方法，解决这个问题的方法就是http协议，假设我们写的这个爬虫方法就是一个完整的http客户端，那理论上这个客户端是不是能根据Content-Typ获取各种格式的文件。
　　那到底能不能用一个简单的方法就能实现上述的功能呢？下面的方法就是我采用request写的nodejs简单高效的爬虫模型。
　　

function fetch(url) {　　console.log(`down ${url} started`);
　　const deferred = Q.defer();
　　const file = getfile(url);
　　fs.ensureDirSync(path.dirname(file));
　　const stream = request
　　.get(url)
　　.on('error', (err) => {
　　deferred.reject(`down ${url}:${err}`);
　　})
　　.on('response', (res) => {
　　if (res.statusCode !== 200) {
　　deferred.reject(`down ${url}:${res.statusCode}`);
　　} else {
　　console.log(`down ${url}:${res.statusCode}`);
　　}
　　})
　　.pipe(fs.createWriteStream(`${file}`));
　　

　　stream.on('finish', () => {
　　deferred.resolve();
　　});
　　return deferred.promise;
　　
}
　　

　　这段代码在yunshare/src/util/fetch.js里面，当然这个方法不能单独运行，但是关键的逻辑就是这么简单。
　　不管是什么格式的http请求，json，html，torrent等都统一把返回的二进制格式文件保存到以md5(url)为文件名的位置。上面的getfile就是用来获取文件路径的。

模型扩展
　　使用MD5散列还是有发生冲突的风险的，如果你想要爬取上亿的网页，可能还需要对上面的模型进行扩展。一个简单的思路就是把网页路径中的域名提取出来，不同网站的内容保存在对应的域文件夹下面。
　　其他的类似的思路也行，需要注意的就是如果爬虫保存文件和解析文件是分开的，你需要保证在解析文件的时候能用同样的方法定位这个文件。共同的参数就是url，所以你生成文件名的时候不能用一些随时间变化的参数。
　　最后，献上第一个使用node全栈开发的网站：哔哩搜索，目前索引百度网盘资源1000w条了。
　　

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

Red Hat RHCE 8 (EX294) Cert Guide

c++ size_t 和 int 的区别

HERE 使用 AWS EF 和 JFrog Artifactory 打

C++ 指针大全：从基础到进阶，一篇快速上手

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

[经验分享] 简单高效的nodejs爬虫模型

浏览过的版块

扫码加入运维网微信交流群