设为首页 收藏本站
查看: 1243|回复: 0

[经验分享] 抓取网络json数据并存入mongodb(1)

[复制链接]

尚未签到

发表于 2015-11-10 14:13:44 | 显示全部楼层 |阅读模式
  我们在百度中搜索http://shixin.court.gov.cn/ ,会有一个内嵌的查询页面:
DSC0000.jpg


  这个是通过ajax技术加载的,因为是js渲染,所以页面源代码中并不包含这些信息。
  通过Firefox的Firebug监视网络请求,发现是向百度opendata请求的,结果返回一个包含100条数据的json
DSC0001.jpg


  这样,通过分析请求字符串的参数,自定义请求,可以通过爬虫直接爬取的数据。
  有了数据之后需要解析,每次请求会返回100条数据,现在需要把这100条数据全部解除出来并存入Mongodb数据库中。
  爬虫使用webmagic:https://github.com/code4craft/webmagic
  数据库Mongodb驱动使用 https://github.com/mongodb/mongo-java-driver
  maven坐标:
  

<dependencies>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.5.2</version>
</dependency>
<dependency>
<groupId>org.mongodb</groupId>
<artifactId>mongo-java-driver</artifactId>
<version>2.7.3</version>
</dependency>
</dependencies>

webmagic爬虫框架使用参考:http://webmagic.io/docs/zh/  
  我在爬取时候自定义了PageProcessor,在这里将数据解析并存入Mongodb,并且使用了爬虫框架自带的FilePipeline将数据持久化到磁盘文件。
  


  每次请求返回的是100条数据,需要通过分析,将这100条分离成一个个独立的json字符串,然后一条条插入。
  插入数据的时候,还要判断数据是否重复。
  json&#26684;式字符串可以直接存入数据库。
  

Mongo mongo = new Mongo();
DB db = mongo.getDB(&quot;shixinTest&quot;);
DBCollection q=db.getCollection(&quot;shixinTest1&quot;);
// new BasicDBObject();
// 通过JSON.parse构造DBObject
DBObject query = (BasicDBObject) JSON.parse(JsonString)
q.save(query);
  
  



json字符串存入mongodb数据库:

DSC0002.jpg
  


  


  爬虫实现部分在:抓取网络json数据并存入mongodb(2)
  


  


  



版权声明:本文为博主原创文章,未经博主允许不得转载。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-137601-1-1.html 上篇帖子: newlisp 备份mongodb数据库 下篇帖子: mongodb数据库的备份与恢复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表