设为首页 收藏本站
查看: 1572|回复: 0

[经验分享] [python]初试页面抓取——抓取沪深股市交易龙虎榜数据

[复制链接]

尚未签到

发表于 2015-11-29 15:25:25 | 显示全部楼层 |阅读模式
  [python]抓取沪深股市交易龙虎榜数据
  python 3.5.0下运行
  没做自动建立files文件夹,需要手动在py文件目录下建立files文件夹后运行
   DSC0000.png
  
  



#coding=utf-8
import gzipimport http.cookiejar
import urllib.request
import urllib.parse
import json
import os
import time
import datetime
def getOpener(head):
# deal with the Cookies
cj = http.cookiejar.CookieJar()
pro = urllib.request.HTTPCookieProcessor(cj)
opener = urllib.request.build_opener(pro)
header = []
for key, value in head.items():
elem = (key, value)
header.append(elem)
opener.addheaders = header
return opener
def ungzip(data):
try:        # 尝试解压
print('正在解压.....')
data = gzip.decompress(data)
print('解压完毕!')
except:
print('未经压缩, 无需解压')
return datadef writeFile(fname,data):
filename = r'files/'+fname+'.txt'
if os.path.exists(filename):
message = '文件 + '+filename +' 已存在,跳过'
else:
message = '文件 + '+filename +' 不存在,新建'
f=open(filename,'w')
f.write(data)
f.close()
print ('文件:'+fname+' 处理完毕。')
'''
读取抓取数据开始日期
如果不存在该日期,从10日前开始读取
如果存在从文件内日期开始读取
读到今天
'''
header = {
'Connection': 'Keep-Alive',
'Accept': '*/*',
'Accept-Language': 'zh-CN,zh;q=0.8',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.111 Safari/537.36',
'Accept-Encoding': 'gzip, deflate',
'Host': '',
'Referer' : ''
}
shUrl = 'http://query.sse.com.cn/infodisplay/showTradePublicFile.do?dateTx='#2015-09-28
szUrl = ['http://www.szse.cn/szseWeb/common/szse/files/text/jy/jy',#150923.txt
'http://www.szse.cn/szseWeb/common/szse/files/text/smeTxt/gk/sme_jy',#150708.txt
'http://www.szse.cn/szseWeb/common/szse/files/text/nmTxt/gk/nm_jy']#150902.txt
startFileName = r'startDay.txt'
endDay = datetime.datetime.now()
if os.path.exists(startFileName):
print('日期配置文件存在,开始读取')
f=open(startFileName,'rt')
s = f.readline()
f.close()
if s!='':
print('将从日期:'+s+' 开始读取')
timeArray = time.strptime(s, "%Y%m%d")
timeStamp = int(time.mktime(timeArray))
fromDay = datetime.datetime.utcfromtimestamp(timeStamp)
else:
print('日期配置文件为空,将从10日前日期开始读取')
fromDay = endDay - datetime.timedelta(days = 10)
else:
print('日期配置文件不存在,将从10日前日期开始读取')
fromDay = endDay - datetime.timedelta(days = 10)
endDay = endDay + datetime.timedelta(days = 1)
while fromDay.strftime("%Y%m%d")!=endDay.strftime("%Y%m%d"):
print(fromDay.strftime("%Y%m%d"))
'''
循环上面日期
抓取上证,深证,中小创交易龙虎榜数据
如果内容不为空
文件不存在
写入文件
'''
#抓取上证龙虎榜数据
url = shUrl + fromDay.strftime("%Y-%m-%d")
print('读取上证龙虎榜\n'+url)
header['Host'] = 'query.sse.com.cn'
header['Referer'] = 'http://www.sse.com.cn/disclosure/diclosure/public/'
try:
opener = getOpener(header)
op = opener.open(url)
data = op.read()
data = data.decode()
jsonData = json.loads(data)
outData = ''
if (jsonData['fileContents']!=''):
for info in jsonData['fileContents']:
outData= outData+ info+'\n'
writeFile(fromDay.strftime("%Y-%m-%d")+'_上证',outData)
except:
print(fromDay.strftime("%Y-%m-%d")+'跳过')

#抓取深证,中小创交易龙虎榜数据
i=1
for url in szUrl:
if(i==1):
name = '深证'
elif(i==2):
name = '中小板'
else:
name = '创业板'
url = url + fromDay.strftime("%y%m%d")+'.txt'
print('读取'+name+'龙虎榜\n'+url)
header['Host'] = 'www.szse.cn'
header['Referer'] = 'http://www.szse.cn'
try:
opener = getOpener(header)
op = opener.open(url)
data = op.read()
data = ungzip(data)
data = data.decode('gbk')
writeFile(fromDay.strftime("%Y-%m-%d")+'_'+name,data)
except:
print(fromDay.strftime("%Y-%m-%d")+'跳过')
i=i+1

fromDay = fromDay + datetime.timedelta(days = 1)
#最后更新日期为当前日期
print('设置最新日期')
fromDay = fromDay - datetime.timedelta(days = 1)
f=open(startFileName,'w')
f.write(fromDay.strftime("%Y%m%d"))
f.close()
print('读取完成')
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-145016-1-1.html 上篇帖子: C#, Java, PHP, Python和Javascript几种语言的AES加密解密实现[转载] 下篇帖子: Python笔记(四)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表