常青树 发表于 2015-11-10 14:13:44

抓取网络json数据并存入mongodb(1)

  我们在百度中搜索http://shixin.court.gov.cn/ ,会有一个内嵌的查询页面:



  这个是通过ajax技术加载的,因为是js渲染,所以页面源代码中并不包含这些信息。
  通过Firefox的Firebug监视网络请求,发现是向百度opendata请求的,结果返回一个包含100条数据的json



  这样,通过分析请求字符串的参数,自定义请求,可以通过爬虫直接爬取的数据。
  有了数据之后需要解析,每次请求会返回100条数据,现在需要把这100条数据全部解除出来并存入Mongodb数据库中。
  爬虫使用webmagic:https://github.com/code4craft/webmagic
  数据库Mongodb驱动使用 https://github.com/mongodb/mongo-java-driver
  maven坐标:
  

<dependencies>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.5.2</version>
</dependency>
<dependency>
<groupId>org.mongodb</groupId>
<artifactId>mongo-java-driver</artifactId>
<version>2.7.3</version>
</dependency>
</dependencies>

webmagic爬虫框架使用参考:http://webmagic.io/docs/zh/  
  我在爬取时候自定义了PageProcessor,在这里将数据解析并存入Mongodb,并且使用了爬虫框架自带的FilePipeline将数据持久化到磁盘文件。
  


  每次请求返回的是100条数据,需要通过分析,将这100条分离成一个个独立的json字符串,然后一条条插入。
  插入数据的时候,还要判断数据是否重复。
  json格式字符串可以直接存入数据库。
  

Mongo mongo = new Mongo();
DB db = mongo.getDB(&quot;shixinTest&quot;);
DBCollection q=db.getCollection(&quot;shixinTest1&quot;);
// new BasicDBObject();
// 通过JSON.parse构造DBObject
DBObject query = (BasicDBObject) JSON.parse(JsonString)
q.save(query);
  
  



json字符串存入mongodb数据库:


  


  


  爬虫实现部分在:抓取网络json数据并存入mongodb(2)
  


  


  



版权声明:本文为博主原创文章,未经博主允许不得转载。
页: [1]
查看完整版本: 抓取网络json数据并存入mongodb(1)