抓取网络json数据并存入mongodb（1）

常青树 发表于 2015-11-10 14:13:44

　　我们在百度中搜索http://shixin.court.gov.cn/ ，会有一个内嵌的查询页面：

　　这个是通过ajax技术加载的，因为是js渲染，所以页面源代码中并不包含这些信息。
　　通过Firefox的Firebug监视网络请求，发现是向百度opendata请求的，结果返回一个包含100条数据的json

　　这样，通过分析请求字符串的参数，自定义请求，可以通过爬虫直接爬取的数据。
　　有了数据之后需要解析，每次请求会返回100条数据，现在需要把这100条数据全部解除出来并存入Mongodb数据库中。
　　爬虫使用webmagic：https://github.com/code4craft/webmagic
　　数据库Mongodb驱动使用 https://github.com/mongodb/mongo-java-driver
　　maven坐标：
　　

<dependencies>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.5.2</version>
</dependency>
<dependency>
<groupId>org.mongodb</groupId>
<artifactId>mongo-java-driver</artifactId>
<version>2.7.3</version>
</dependency>
</dependencies>

webmagic爬虫框架使用参考：http://webmagic.io/docs/zh/　　
　　我在爬取时候自定义了PageProcessor，在这里将数据解析并存入Mongodb，并且使用了爬虫框架自带的FilePipeline将数据持久化到磁盘文件。
　　

　　每次请求返回的是100条数据，需要通过分析，将这100条分离成一个个独立的json字符串，然后一条条插入。
　　插入数据的时候，还要判断数据是否重复。
　　json格式字符串可以直接存入数据库。
　　

Mongo mongo = new Mongo();
DB db = mongo.getDB("shixinTest");
DBCollection q=db.getCollection("shixinTest1");
// new BasicDBObject();
// 通过JSON.parse构造DBObject
DBObject query = (BasicDBObject) JSON.parse(JsonString)
q.save(query);
　　
　　

json字符串存入mongodb数据库：

　　

　　

　　爬虫实现部分在：抓取网络json数据并存入mongodb（2）
　　

　　

　　

版权声明：本文为博主原创文章，未经博主允许不得转载。

页: [1]

运维网's Archiver

抓取网络json数据并存入mongodb（1）