设为首页 收藏本站
查看: 1013|回复: 0

[经验分享] C#读取RSS源,并利用Solr索引

[复制链接]

尚未签到

发表于 2015-7-16 12:55:29 | 显示全部楼层 |阅读模式
  折磨我几天的问题今天终于解决了,分享一下近期solr使用的一些经验。
  本来是用nutch在爬取页面,可是客户需要爬取RSS,而且可以识别那些页面是通过RSS源抓取出来的。nutch虽然自带解析RSS的插件,但是有些RSS解析不了,也不好控制,更重要的抓取后和普通页面就没什么太大的区别了,不能识别不能判断是由哪个rss源抓取出来的。因为上面原因,所以就自己用C#写了一个配合Solr抓取RSS的工程。
  一切实现好后,客户非常满意,我也觉得做的还不错,可是过了一段时间后发现nutch在solrdedup时失败了,导致nutch不能使用。下面就把rss实现的原理,和问题的产生进行介绍,解决solr和nutch这些问题不是因为非常难理解,主要是这类问题在网上很难找到。由于公司没有外网和拷贝权限,所有的一切只能凭我的记忆写出来了。
   RSS+Solr的实现是利用webrequest读取到rss源的xml格式的内容,直接里面post方式为solr建立索引。为了达到客户的要求,我在solr的schame里面添加了rss和isrss字段,rss为rss源的url地址,isrss固定为ture。由于nutch没有这2个字段,所以我们查询rss只需 输入 isrss:"true"就可以过滤掉不是rss出来的页面。
  实现过程中主要要注意下面几点
  1.rss源并不是后缀为xml的文件,有些就是普通页面response出来的,而且有些是需要登录权限的
  2.rss目前主要有2种格式,普遍的xml结构为rss/channel/item ,另外一种就是我们博客园rss的结构feed/entry。
  里面的标签是固定的,可以通过不同的标签找到solr里面filed需要的值

  3.id,digest,tstamp三个栏位是必须要的。
  上面提到nutch 运行到solrdedup时就报错,开始我以为是solr里面新加的2个字段,尝试为nutch也新增2个字段,而且还利用nutch的静态栏位插件和额外栏位插件,但是没有用,最后我发现把solr的数据清除后居然nutch可以正常运行,我在google里面也查了很多,但是基本没什么帮助,还以为是solr cache的原因。今天刚好有点空,所以我找到了nutch的报错文件solrdeleteduplicates.java,研究发现里面nutch去除重复是从solr直接取了id,digest,tstamp字段,没有判断是否为空就直接使用了。
  但是我写的程序里面digest和tsamp是没有添加的,果然添加完这2个栏位,把所有没有这2个栏位的数据全部补完整,nutch又可以正常运行了
  4.digest是网页的32位哈希值,用来nutch去除重复时进行比较差异
  5.solr是可以直接通过请求url对内容进行新增,修改,删除,其中修改的格式与新增一样
  主要核心为:xx.xx.xx.xx/solr/update?stream.body=xx&stream.contentType=text/xm;charset=utf-8&commit=true
  如果内容有ur格式和html格式需要对其进行转码
  6,solr的时间是GMT格式的时间,所以不要弄错,而且rss里面的GMT格式有些是不对的,我就遇到了很多,星期不对都会引起solr index失败。
  
  现在信息都还是比较齐全,搜索还是比较方便的,但是还是有很多问题需要解决,主要是js生成页面不能读取,还有页面上信息的过滤。获取文章的主要内容,过滤导航等其他信息还是比较难的,目前我查到的别人是根据统计规律在进行过滤,比如导航条中间很多是用|分开的,内容里面的空格间隔等。每个站点的html布局风格不一样,标签这些很难统一,百度,谷歌也不知道是怎么实现的,或者它们其实也没有实现。
  nutch还是比较强大的,但是总觉得不好维护和修改,上次编译一下源代码都费了很长时间,solr的查询也是比较高效的。 可能计划写一个.net版本的爬虫和搜索,但是只是在计划中,因为涉及到的问题太多了...
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87318-1-1.html 上篇帖子: .NET开发过程中的全文索引使用技巧之Solr 下篇帖子: Apache Solr实现竞价排名
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表