设为首页收藏本站

运维网»论坛 › 【开发测试】 › nodejs › Node.js 实现简单小说爬虫

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

查看: 1449|回复: 0

[经验分享] Node.js 实现简单小说爬虫

尚未签到

发表于 2017-2-24 07:42:12 | 显示全部楼层 |阅读模式

　　最近因为剧荒，老大追了爱奇艺的一部网剧，由丁墨的同名小说《美人为馅》改编，目前已经放出两季，虽然整部剧槽点满满，但是老大看得不亦乐乎，并且在看完第二季之后跟我要小说资源，直接要奔原著去看结局……
　　
随手搜了下，都是在线资源，下载的话需要登录，注册登录好麻烦，写个爬虫玩玩也好，于是动手用 node 写了一个，这里做下笔记
　　

工作流程

获取 URLs 列表(请求资源 request 模块)
根据 URLs 列表获取相关页面源码(可能遇到页面编码问题，iconv-lite 模块)
源码解析，获取小说信息( cheerio 模块)
保存小说信息到 Markdown 文件，并且加适当修饰以及章节信息(写文件 fs、同步请求资源 sync-request 模块)
Markdown 转 PDF (使用 Pandoc 或者 Chrome 的打印功能)

获取 URLs
　　根据小说的导航页，获取小说所有章节的 URL，并且以 JSON 数组的方式存储。

首选通过 http.get() 方法获取页面源码
获取到源码，打印发现中文乱码，查看发现 charset = 'gbk'，需要进行转码
使用 iconv-lite 模块进行转码，中文显示正常后开始解析源码，获取需要的 URL，为了更方便地解析，需要引进 cheerio 模块，cheerio 可以理解为运行在后台的 jQuery，用法与 jQuery 也十分相似，熟悉 jQuery 的同学可以很快的上手
将源码加载进 cheerio，分析了源码后得知所有章节信息都存于被 div 包裹的 a 标签中，通过 cheerio 取出符合条件的 a 标签组，进行遍历，获取章节的>因为链接中存储的 URL 不完整，所以存储时需要补齐)
将对象数组序列化，写进 list.json 文件

var http = require("http")　　
var fs = require("fs")
　　
var cheerio = require("cheerio")
　　
var iconv = require("iconv-lite")
　　
var url = 'http://www.17fa.com/files/article/html/90/90747/index.html'
　　
http.get(url, function(res) { //资源请求
　　var chunks = []
　　res.on('data', function(chunk) {
　　chunks.push(chunk)
　　})
　　res.on('end', function() {
　　var html = iconv.decode(Buffer.concat(chunks), 'gb2312') //转码操作
　　var $ = cheerio.load(html, {
　　decodeEntities: false
　　})
　　var content = $("tbody")
　　var links = []
　　$('div').children('a').each(function(i, elem) {
　　var link = new Object()
　　link.title = $(this).text()
　　link.link = 'http://www.17fa.com/files/article/html/90/90747/' + $(this).attr('href') //补齐 URL 信息
　　if (i > 5) {
　　links.push(link)
　　}
　　})
　　fs.writeFile("list.json", JSON.stringify(links), function(err) {
　　if (!err) {
　　console.log("写文件成功")
　　}
　　})
　　}).on('error', function() {
　　console.log("网页访问出错")
　　})
　　
})
　　获取的列表示例
[{　　"title": "3 法医司白",
　　"link": "http://www.17fa.com/files/article/html/90/90747/16548771.html"
　　
}, {
　　"title": "4 第1个梦 ",
　　"link": "http://www.17fa.com/files/article/html/90/90747/16548772.html"
　　
}, {
　　"title": "5 刑警韩沉 ",
　　"link": "http://www.17fa.com/files/article/html/90/90747/16548773.html"
　　
}, {
　　"title": "6 最初之战",
　　"link": "http://www.17fa.com/files/article/html/90/90747/16548774.html "
　　
}]

获取数据
　　有了 URLs 列表，接下来的工作就很机械了，遍历 URLs 列表请求资源，获取源码，解析源码，获取小说，写文件，但是，因为最终将所有的章节保存入一个文件，要保证章节的顺序，因此写文件需要 同步操作，实际上，我在编码的时候所有的操作都改成了同步方式

获取源码
　　通过解析读取的 list.json 文件，获取到 URLs 列表，遍历列表获取资源，因为需要确保章节的顺序，所以这里引进 sync-request 模块进行同步 request 请求资源，请求资源后照例转码
var http = require("http")　　
var fs = require("fs")
　　
var cheerio = require("cheerio")
　　
var iconv = require("iconv-lite")
　　
var request = require('sync-request')
　　
var urlList = JSON.parse(fs.readFileSync('list.json', 'utf8'))
　　
function getContent(chapter) {
　　var res = request('GET',chapter.link)
　　var html = iconv.decode(res.body, 'gb2312') //获取源码
　　
}
　　
for (let i = 0; i < urlList.length; i++) {
　　getContent(urlList)
　　
}

解析源码，获取小说
　　还是通过 cheerio 模块获取小说内容，避免影响观感，写操作之前去除内容中的的 html 标签
function getContent(chapter) {　　var res = request('GET',chapter.link)
　　var html = iconv.decode(res.body, 'gb2312')
　　var $ = cheerio.load(html, {
　　decodeEntities: false
　　})
　　var content = ($("div#r1c").text()).replace(/\ /g, '')
　　
}

保存小说
　　写操作也需要同步操作，因此使用了同步写函数 fs.writeFileSync() 和同步添加函数 fs.appendFileSync()，第一次写使用写函数，之后的内容都是进行 append 操作，为了改善阅读体验，每个章节前添加标题
　　
也可以在内容前添加拍 [TOC]，作为导航链接

var http = require("http")　　
var fs = require("fs")
　　
var cheerio = require("cheerio")
　　
var iconv = require("iconv-lite")
　　
var path = require('path')
　　
var urlList = JSON.parse(fs.readFileSync('list.json', 'utf8'))
　　
function getContent(chapter) {
　　console.log(chapter.link)
　　http.get(chapter.link, function(res) {
　　var chunks = []
　　res.on('data', function(chunk) {
　　chunks.push(chunk)
　　})
　　res.on('end', function() {
　　var html = iconv.decode(Buffer.concat(chunks), 'gb2312')
　　var $ = cheerio.load(html, {
　　decodeEntities: false
　　})
　　var content = ($("div#r1c").text()).replace(/\ /g, '')
　　if (fs.existsSync('美人为馅.md')) {
　　fs.appendFileSync('美人为馅.md', '### ' + chapter.title)
　　fs.appendFileSync('美人为馅.md', content)
　　} else {
　　fs.writeFileSync('美人为馅.md', '### ' + chapter.title)
　　fs.appendFileSync('美人为馅.md', content)
　　}
　　})
　　}).on('error', function() {
　　console.log("爬取" + chapter.link + "链接出错！")
　　})
　　
}
　　
for (let i = 0; i < urlList.length; i++) {
　　console.log(urlList)
　　getContent(urlList)
　　
}

Markdown 转 PDF
　　我将小说保存在 Markdown 文件中，为了提升阅读体验，可以将 Markdown 文件转换成 PDF 文件，目前我较为喜欢的两种方式，通过 Chrome 的打印功能以及 pandoc 转换

Chrome 打印
　　SublimeText 有个插件 markdown preview ，可通过 Alt + m 快捷键在 Chrome 中预览 Markdown，在 Chrome 页面中右键，选择打印，调整好参数后，选择另存为 PDF，简单，粗暴，深得我心
　　
打印效果：
　　

pandoc 转换
　　pandoc 是十分强大的文件格式转换工具，可以将 Markdown 文件转换成多种格式，今晚在 windows10 下折腾了半天，始终检索不到 pdflatex，关于 pandoc，后面会专门写一篇总结。
　　PDF 已经发给老大了，现在正在看

关于python、node、爬虫
　　在之前很长的一段时间里，很想用 Python，很想写爬虫，更想用 Python 写爬虫，甚至成为了心里的一块执念，随着接触的知识更全面，执念也逐渐淡去，少了很多“想”，遇事想着多去动手，实践出真知。
　　talk is cheap, show me your code
　　转自个人站点：http://lijundong.com/novel-crawler-by-Nodejs/
　　

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表，该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有，请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意，请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息，一经发现立即删除。若您因此触犯法律，一切后果自负，我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集，我们仅提供一个展示、介绍、观摩学习的平台，我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责，亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏，不得用于商业或者其他用途，否则，一切后果均由您自己承担，我们对此不承担任何法律责任
7、如涉及侵犯版权等问题，请您及时通知我们，我们将立即采取措施予以解决
8、联系人Email：admin@iyunv.com 网址：www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址：https://www.yunweiku.com/thread-346334-1-1.html 上篇帖子：一个三年工作经验的软件工程师的经验之谈下篇帖子： Node.js开发Web后台服务

回复

使用道具举报

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群，最新一手资源尽在官方微信交流群！快快加入我们吧...

扫描微信二维码查看详情

客服 E-mail:iyunvcom@gmail.com

本站由青云提供云计算服务

运维网--中国最专业的运维工程师交流社区

豫ICP备20007574号-1 Copyright © 2012-2025

Good Good

Study

Day Day

UP

客服E-mail:kefu@iyunv.com 客服QQ：1061981298

QQ群⑦： QQ群⑧： k8s群：

提醒：禁止发布任何违反国家法律、法规的言论与图片等内容；本站内容均来自个人观点与网络等信息，非本站认同之观点.

本站大部分资源是网友从网上搜集分享而来，其版权均归原作者及其网站所有，我们尊重他人的合法权益，如有内容侵犯您的合法权益，请及时与我们联系进行核实删除！

合作伙伴:

快速回复 返回顶部 返回列表