C#读取RSS源，并利用Solr索引

ustbwang · 发表于 2015-7-16 12:55:29

　　折磨我几天的问题今天终于解决了，分享一下近期solr使用的一些经验。
　　本来是用nutch在爬取页面，可是客户需要爬取RSS，而且可以识别那些页面是通过RSS源抓取出来的。nutch虽然自带解析RSS的插件，但是有些RSS解析不了，也不好控制，更重要的抓取后和普通页面就没什么太大的区别了，不能识别不能判断是由哪个rss源抓取出来的。因为上面原因，所以就自己用C#写了一个配合Solr抓取RSS的工程。
　　一切实现好后，客户非常满意，我也觉得做的还不错，可是过了一段时间后发现nutch在solrdedup时失败了，导致nutch不能使用。下面就把rss实现的原理，和问题的产生进行介绍，解决solr和nutch这些问题不是因为非常难理解，主要是这类问题在网上很难找到。由于公司没有外网和拷贝权限，所有的一切只能凭我的记忆写出来了。
　　　RSS+Solr的实现是利用webrequest读取到rss源的xml格式的内容，直接里面post方式为solr建立索引。为了达到客户的要求，我在solr的schame里面添加了rss和isrss字段，rss为rss源的url地址，isrss固定为ture。由于nutch没有这2个字段，所以我们查询rss只需输入 isrss:"true"就可以过滤掉不是rss出来的页面。
　　实现过程中主要要注意下面几点
　　1.rss源并不是后缀为xml的文件，有些就是普通页面response出来的，而且有些是需要登录权限的
　　2.rss目前主要有2种格式,普遍的xml结构为rss/channel/item ,另外一种就是我们博客园rss的结构feed/entry。
　　里面的标签是固定的，可以通过不同的标签找到solr里面filed需要的值

　　3.id,digest,tstamp三个栏位是必须要的。
　　上面提到nutch 运行到solrdedup时就报错，开始我以为是solr里面新加的2个字段，尝试为nutch也新增2个字段，而且还利用nutch的静态栏位插件和额外栏位插件，但是没有用，最后我发现把solr的数据清除后居然nutch可以正常运行，我在google里面也查了很多，但是基本没什么帮助，还以为是solr cache的原因。今天刚好有点空，所以我找到了nutch的报错文件solrdeleteduplicates.java,研究发现里面nutch去除重复是从solr直接取了id,digest，tstamp字段，没有判断是否为空就直接使用了。
　　但是我写的程序里面digest和tsamp是没有添加的，果然添加完这2个栏位，把所有没有这2个栏位的数据全部补完整，nutch又可以正常运行了
　　4.digest是网页的32位哈希值，用来nutch去除重复时进行比较差异
　　5.solr是可以直接通过请求url对内容进行新增，修改，删除，其中修改的格式与新增一样
　　主要核心为：xx.xx.xx.xx/solr/update?stream.body=xx&stream.contentType=text/xm;charset=utf-8&commit=true
　　如果内容有ur格式和html格式需要对其进行转码
　　6，solr的时间是GMT格式的时间，所以不要弄错，而且rss里面的GMT格式有些是不对的，我就遇到了很多，星期不对都会引起solr index失败。
　　
　　现在信息都还是比较齐全，搜索还是比较方便的，但是还是有很多问题需要解决，主要是js生成页面不能读取，还有页面上信息的过滤。获取文章的主要内容，过滤导航等其他信息还是比较难的，目前我查到的别人是根据统计规律在进行过滤，比如导航条中间很多是用|分开的，内容里面的空格间隔等。每个站点的html布局风格不一样，标签这些很难统一，百度，谷歌也不知道是怎么实现的，或者它们其实也没有实现。
　　nutch还是比较强大的，但是总觉得不好维护和修改，上次编译一下源代码都费了很长时间，solr的查询也是比较高效的。可能计划写一个.net版本的爬虫和搜索，但是只是在计划中，因为涉及到的问题太多了...
　　

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] C#读取RSS源，并利用Solr索引

扫码加入运维网微信交流群