设为首页 收藏本站
查看: 1235|回复: 0

[经验分享] 乌云平台公开漏洞、知识库爬虫和搜索

[复制链接]

尚未签到

发表于 2017-6-23 08:19:51 | 显示全部楼层 |阅读模式
  1.安装相关组件
  python 2.7和pip
  mongodb
  scrapy (pip install scrapy)
  flask (pip install Flask)
  pymongo (pip install pymongo)
  2.爬虫
  乌云公开漏洞和知识库的爬虫分别位于目录scrapy/wooyun和scrapy/wooyun_drops
  运行scrapy crawl wooyun -a page_max=1 -a local_store=false -a update=false,有三个参数用于控制爬取:
  -a page_max: 控制爬取的页数,默认为1,如果值为0,表示所有页面
  -a local_store: 控制是否将每个漏洞离线存放到本地,默认为false
  -a update:控制是否重复爬取,默认为false
  第一次爬取全部内容时,用scrapy crawl wooyun -a page_max=0 -a update=true
  平时只爬取最近的更新时,用scrapy crawl wooyun -a page_max=1,可以根据自己的爬取频率和网站更新情况调整page_max的值
  全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。(截止2015年10月)
  3.搜索
  漏洞搜索使用了Flask作为web server,bootstrap作为前端
  启动web server :在flask目录下运行python app.py,默认端口是5000
  搜索:在浏览器通过http://localhost:5000进行搜索漏洞,多个关键字可以用空格分开。
  4.为mongodb数据库创建索引(如果不创建索引,可能导致返回结果报错,以下为命令行状态)
  mongo
  
use wooyun
  
db.wooyun_list.ensureIndex({"datetime":1})
  
db.wooyun_drops.ensureIndex({"datetime":1})
  
5.虚拟机
  虚拟机1:在2016年6月底爬的wooyun全部漏洞库和知识库内容,总共30G(压缩后约11G),网盘链接: http://pan.baidu.com/s/1kUZFQdT 密码: rupb
  
使用方法:
  

1、压缩包解压后是一个vmware虚拟机的镜像,可以由vmware直接打开运行;  
2、由于在制作压缩包时虚拟机为“挂起”状态,当前虚拟机的IP地址可能和宿主机的IP地址段不一致,请将虚拟机重启后重新获取IP地址,虚拟机用户密码为hancool/qwe123;
  
3、进入wooyun_public目录,先用git更新一下到最新的代码git pull;
  
4、进入wooyun_public/flask目录,运行./app.py;
  
5、打开浏览器,输入http://ip:5000,ip为虚拟机的网卡地址(使用ifconfig eth0查看)
  

  虚拟机2:已打包了一个安装了所有组件和程序的虚拟机(不包含具体内容,约980M),网盘链接: http://pan.baidu.com/s/1jIlTkTC 密码: cnt7
  
使用方法:
  1、使用vmware或virtualbox导入虚拟机
  
2、登录用户名hancool,密码qwe123
  
3、进入wooyun_public目录,先用git更新一下到最新的代码git pull
  
4、分别进入wooyun_public目录下的wooyun和wooyun_drops,运行爬虫爬取数据(爬取全部数据并且本地离线缓存):scrapy crawl wooyun -a page_max=0 -a local_store=true -a update=true
  
5、进入wooyun_publich目录下的flask,运行./app.py,启动web服务
  
6、打开浏览器,输入http://ip:5000,ip为虚拟机的网卡地址(使用ifconfig eth0查看)
  
6.其它
  本程序只用于技术研究和个人使用,程序组件均为开源程序,漏洞和知识库来源于乌云公开漏洞,版权归wooyun.org。
  期待雨过天晴、重开wooyun!

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-387057-1-1.html 上篇帖子: vmware安装centos时遇到无法创建新虚拟机: 不具备执行此操作的权限。 下篇帖子: shelll脚本,根据软链接,找到真实路径
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表