用Python爬取LeetCode的AC代码到Github

werew1 · 发表于 2014-10-16 10:34:22

在leetCode写了105道题高调膜科，考虑搬迁到自己的GitHub上，做成一个解题题库，面试的时候也可以秀一个
但是！但是！
leetCode在线IDE的功能不要太舒服，我直接线上A了不少题，本地没有代码，除非有题调试半天A不来，本地才有存代码
于是我就考虑，直接用Python把leetCode上的AC代码爬下来，然后扔到本地github文件夹里，然后一个同步大法
大概涉及的知识：

0、cookie
1、网站的结构分析
2、脚本登陆
3、脚本爬站

----------------------------------------------------------------------------------------------------------------------------------------------

一、自动登录
Python的cookielib + urllib2 + urllib，然后leetCode这个网站有个Django的什么鸟码，在访问主页时会作为cookie发送过来，而在登录页面需要同时提交这个码，这个时候注意先访问主页，提取了这个码以后再访问登录页面，然后一同提交。

再有就是要修改header，我改了referer，之前一直403，wtf。。

code ：
import urllib2
import cookielib
import urllib

mydir = r'C:/Users/user/Documents/GitHub/leetcode/'
myhost = r'https://oj.leetcode.com'

cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
urlOpener = urllib2.build_opener(handler)
urlOpener.open('https://oj.leetcode.com/')

csrftoken = ""
for ck in cookie:
csrftoken = ck.value

login = "shadowmydx"
mypwd = "**********" # 密码

values = {'csrfmiddlewaretoken':csrftoken,'login':login,'password':mypwd,'remember':'on'}
values = urllib.urlencode(values)
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6', \
'Origin':'https://oj.leetcode.com','Referer':'https://oj.leetcode.com/accounts/login/'}

request = urllib2.Request("https://oj.leetcode.com/accounts/login/",values,headers=headers)

url = urlOpener.open(request)

page = url.read()

二、爬站

切割成几个子问题。首先，找到AC的题目地址，其次，找到AC的代码地址，最后，把AC代码爬到本地的GitHub项目文件夹中。

由于leetCode的IDE是js实现的动态页面，所以不能用FireBug直接审查元素来抓，而是要从发送过来的js代码中抓AC代码。这就意味着需要一个字典来转换特殊字符
def saveCode(code,title):
   global mydir
   f = open(mydir + title + '.cpp','w')
   f.write(code)

def downloadCode(refer,codeadd,title):
global headers
global urlOpener
global myhost
headers['Referer'] = refer
request = urllib2.Request(codeadd,headers=headers)
url = urlOpener.open(request)
all = url.read()
tar = "storage.put('cpp',"
index = all.find(tar,0)
start = all.find('class Solution',index)
finis = all.find("');",start)
code = all[start:finis]
toCpp = {'\u000D':'\n','\u000A':'','\u003B':';','\u003C':'<','\u003E':'>','\u003D':'=',\
'\u0026':'&','\u002D':'-','\u0022':'"','\u0009':'\t','\u0027':"'",'\u005C':'\\'}
for key in toCpp.keys():
      code = code.replace(key,toCpp[key])
saveCode(code,title)

def findCode(address,title):
global headers
global urlOpener
global myhost
headers['Referer'] = address
address += 'submissions/'
print 'now is dealing ' + address + ': ' + title
request = urllib2.Request(address,headers=headers)
url = urlOpener.open(request)
all = url.read()
tar = 'class="text-danger status-accepted"'
index = all.find(tar,0)
start = all.find('href="',index)
finis = all.find('">',start)
downloadCode(address,myhost + all[start + 6:finis],title)

def findAdd(page):
index = 0
while 1:
      index = page.find('class="ac"',index)
      if index != -1:
         index += 1
         start = page.find('<td><a href="',index)
         finis = page.find('">',start)
         tmpfin = page.find('<',finis)
         title = page[finis + 2:tmpfin]
         findCode(myhost + page[start + 13:finis],title)
      else:
         break

最后，调用findAdd(page)，大功告成

后记：最先的想法是做一个多线程的版本，后来想想还是先实现功能再说，否则就又增加一个烂尾玩具了。。

账号		自动登录	找回密码
密码			立即注册

VMware vcenter+vSphere 6.5 U2共享

【跟谁学】韩宇极简英语课-技术人员不得不

用Zabbix通过JMX方式监控weblogic

winhex数据恢复教程（非常巨大，内容丰富）

Symantec Backup Exec 2015 2016/2012 BE20

NetScaler VPX部署之：NetScaler Gateway调

zabbix3.4.1安装部署+微信推送信息+大屏显

[经验分享] 用Python爬取LeetCode的AC代码到Github

扫码加入运维网微信交流群