抓取网络json数据并存入mongodb(1)
我们在百度中搜索http://shixin.court.gov.cn/ ,会有一个内嵌的查询页面:这个是通过ajax技术加载的,因为是js渲染,所以页面源代码中并不包含这些信息。
通过Firefox的Firebug监视网络请求,发现是向百度opendata请求的,结果返回一个包含100条数据的json
这样,通过分析请求字符串的参数,自定义请求,可以通过爬虫直接爬取的数据。
有了数据之后需要解析,每次请求会返回100条数据,现在需要把这100条数据全部解除出来并存入Mongodb数据库中。
爬虫使用webmagic:https://github.com/code4craft/webmagic
数据库Mongodb驱动使用 https://github.com/mongodb/mongo-java-driver
maven坐标:
<dependencies>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.5.2</version>
</dependency>
<dependency>
<groupId>org.mongodb</groupId>
<artifactId>mongo-java-driver</artifactId>
<version>2.7.3</version>
</dependency>
</dependencies>
webmagic爬虫框架使用参考:http://webmagic.io/docs/zh/
我在爬取时候自定义了PageProcessor,在这里将数据解析并存入Mongodb,并且使用了爬虫框架自带的FilePipeline将数据持久化到磁盘文件。
每次请求返回的是100条数据,需要通过分析,将这100条分离成一个个独立的json字符串,然后一条条插入。
插入数据的时候,还要判断数据是否重复。
json格式字符串可以直接存入数据库。
Mongo mongo = new Mongo();
DB db = mongo.getDB("shixinTest");
DBCollection q=db.getCollection("shixinTest1");
// new BasicDBObject();
// 通过JSON.parse构造DBObject
DBObject query = (BasicDBObject) JSON.parse(JsonString)
q.save(query);
json字符串存入mongodb数据库:
爬虫实现部分在:抓取网络json数据并存入mongodb(2)
版权声明:本文为博主原创文章,未经博主允许不得转载。
页:
[1]