『Python』爬行搜索引擎结果获得指定主机二级域名及IP信息

违法℃玩家 · 发表于 2015-11-29 10:32:15

　　0x 00 前言
　　　　　　前天自己在玩的时候，自己通过百度搜索主机的二级域名感觉好麻烦，自已要一页页的去翻
　　　　　　而且人工识别是否是重复的二级域名也够蛋疼的，正好最近在学正则表达式，权当练手了
　　0x 00 代码
　　　　

# coding=utf-8
# author:Anka9080
# environment:Eclipse

import urllib
import urllib2
import cookielib
import re

#site = 'baidu.com'
print 'Please input the root site like "baidu.com":'
site = raw_input()
siteFormat1 = site
siteFormat1 = siteFormat1.replace('.', '\.')
#print siteFormat1

urlPage = 'http://www.haosou.com/s?src=360sou_newhome&q=site:'+site
req = urllib2.Request(urlPage)
res = urllib2.urlopen(req)
html = res.read().decode('utf-8')
# 获得搜索结果的页面数
pageStr = re.search(ur'找到相关结果约(.*?)个',html)
page = pageStr.group(1)
formatNum = '0123456789'
for c in page:
if not c in formatNum:
page = page.replace(c,'')
page = int(page) / 10
print 'Total Page: ' + str(page)
if page > 6:
page = 6
newItems = []
for p in range(1, page):
urlDomain = 'http://www.haosou.com/s?src=360sou_newhome&q=site:'+site+'&pn='+str(p)
req = urllib2.Request(urlDomain)
res = urllib2.urlopen(req)
html = res.read().decode('utf-8')
tmp = 'linkinfo\"\>\<cite\>(.+?\.'+siteFormat1+')';
pattern = re.compile(tmp)
items = re.findall(pattern, html)

# 去重操作
for item in items:
if item not in newItems:
newItems.append(item)
print 'SubDomain Count: '+ str(len(newItems) - 1)
for item in newItems:
# 获得对应 IP 信息
pattern = re.compile(ur'\>\>\ (.*?)\<\/font[\s|\S]*?本站主数据：(.*?)\<\/li\>')
urlIP = 'http://www.ip138.com/ips138.asp?ip='+item
req = urllib2.Request(urlIP)
res = urllib2.urlopen(req)
html = res.read().decode('gb2312')
result = re.search(pattern,html)
print item + ' ' + result.group(1) + ' ' + result.group(2)
　　　测试结果如下：
　　　　

Please input the root site like "baidu.com":
baidu.com
Total Page: 2
SubDomain Count: 9
www.baidu.com 61.135.169.121 北京市百度蜘蛛联通
tieba.baidu.com 123.125.65.93 北京市  联通
fanyi.baidu.com 202.108.23.153 北京市  联通
wenku.baidu.com 123.125.70.102 北京市百度蜘蛛联通
map.baidu.com 112.80.248.48 江苏省南京市  联通
music.baidu.com 123.125.114.14 北京市  联通
zhidao.baidu.com 123.125.65.91 北京市  联通
baike.baidu.com 123.125.70.105 北京市百度蜘蛛联通
yun.baidu.com 123.125.65.51 北京市  联通
pan.baidu.com 202.108.23.29 北京市  联通
　　
　　
　　
　　0x 02 总结
　　　　　　思路大概是这个样子：
　　　　　　先通过urllib2.Request() 和 urllib2.urlopen()访问url
　　　　　　再从返回结果中得到搜索结果页面数
　　　　　　为了提高效率页面数大于 5 会只爬行搜索结果的前5个页面
　　　　　　后面又做了去重操作然后就得到二级域名列表咯 : )
　　　　　　中间蛋疼的地方倒是 Py 的转义符号问题  身边能有个可以问问的大牛多好~
　　　　　　后期准备使用 http://dns.aizhan.com/的查询结果直接获得 IP以及旁站信息
　　　　　　==================6.13号更新====================
　　　　　　在知乎上请教后已经解决转义问题，之前的逻辑没有理清导致出错，和编码并没有神马关系(晚上敲代码很容易出错哈 &frasl;(&frasl; &frasl;·&frasl;ω&frasl;·&frasl; &frasl;)&frasl;
　　　　　　现在已经可以查出二级域名对应的IP地址以及地理位置信息
　　　　　　感觉http://dns.aizhan.com 的调用比较麻烦，接口已经换成 http://www.ip138.com
　　
　　文中图片引自：http://developer.iyunv.com/art/201403/431104.htm（原博客链接失效）
　　

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] 『Python』爬行搜索引擎结果获得指定主机二级域名及IP信息

浏览过的版块

扫码加入运维网微信交流群