设为首页 收藏本站
查看: 885|回复: 0

[经验分享] Golang 网络爬虫框架gocolly/colly 四

[复制链接]
发表于 2018-9-20 06:59:13 | 显示全部楼层 |阅读模式
Golang 网络爬虫框架gocolly/colly 四
  爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、土豆、校内网、web版qq、网页邮箱等等也都爬过;那时候先用C#写demo,项目是C++的,所以还要转换成托管C++的代码。第一阶段的主要心得是cookie管理,比较难搞的cookie就借助于webbrowser控件。
  第二阶段是13年左右,做的是金融数据分析类软件和网络机器人,爬虫编程语言依然借助于C# ,发包收包全靠HttpWebRequest和HttpWebResponse,cookie管理靠CookieContainer,HTML分析靠HtmlAgilityPack,验证码识别靠自己预处理封装过的tesseract,协议分析靠fiddler,元素选择靠浏览器调试器,这套功夫在手基本可以畅游网络,实现的机器人随意游走于博客、微博,自动留言、发帖、评论;各大金融网站、上交所、深交所、巨潮网络、互动平台等等数据任爬。
  第三阶段就是现在了。四年多过去了,重新学习审视爬虫技术,发现武器更强大了:go语言,goquery,colly,chromedp,webloop等,强大的语言及工具使爬虫更简单、更高效。
  多年的爬虫经验总结了开头那句话。已知的爬虫手段无外乎三大类:一,分析HTTP协议,构造请求;二,利用浏览器控件,获取cookie、页面元素、调用js脚本等;phantomjs、webloop属于此类;第三类是直接操作浏览器,chromedp属于此类;微软还提供了操纵ie浏览器的com接口,很早以前用C++写过,比较难用,代码写起来很恶心,需要较多的条件判断。构造请求直接快速,浏览器控件和操纵浏览器可靠安全,可以省去很多不必要的协议分析、js脚本分析,但速度慢,加载了很多无用的数据、图片等;第二、三种与第一种混用效果更佳,只要表演地越像浏览器就越安全可靠,或者干脆操纵浏览器,只要不超过服务器的人类操作阈值判定,ip基本不会被封。单ip不够用时,就设置代理来切换。
  学无止境,不断用新的武器武装自己。下面贡献一个小例子,爬取上交所的AB股股票列表,简单地show下演技。(哈哈哈)
DSC0000.png

  该页面提供了下载功能,A股的下载地址 http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1
  B股的下载地址  http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2
  拿到了这个地址就开始Visit了
  

c.Visit("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1")  

  

  UserAgent设置成了Chrome
  

c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"  

  

  发现不行,程序会报错,
  

2018/01/03 23:39:27 Forbidden  

  把这个网址直接在浏览器地址栏中打开也是不行的,会报告“Error 403: SRVE0190E: 找不到文件:/error/error_cn.jsp”
  服务端做了些限制,打开fiddler看下协议
DSC0001.png

  请求中有一大堆cookie,第一感觉是可能没有加cookie的缘故,于是利用chromedp打开页面,再调用ajax去请求,刚开始ajax没有带cookie也请求成功了,
  后来发现关键在于请求头中的“Referer”,有了Referer就行了。
  干脆把所有的头补全,更像浏览器些,这不会吃亏:
  

c.OnRequest(func(r *colly.Request) {  r.Headers.Set("Host", "query.sse.com.cn")
  r.Headers.Set("Connection", "keep-alive")
  r.Headers.Set("Accept", "*/*")
  r.Headers.Set("Origin", "http://www.sse.com.cn")
  r.Headers.Set("Referer", "http://www.sse.com.cn/assortment/stock/list/share/") //关键头 如果没有 则返回 错误
  r.Headers.Set("Accept-Encoding", "gzip, deflate")
  r.Headers.Set("Accept-Language", "zh-CN,zh;q=0.9")
  })
  

  

  附上完整的代码,将股票保存到CSV文件
  

package sse  

  
import (
  "encoding/csv"
  "os"
  "strings"
  

  "github.com/gocolly/colly"
  
)
  

  
/*GetStockListA 获取上海证券交易所股票列表
  
A股
  
*/
  
func GetStockListA(saveFile string) (err error) {
  

  stocks, err := getStockList("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1")
  if err != nil {
  return err
  }
  

  err = saveStockList2CSV(stocks, saveFile)
  return
  
}
  

  
/*GetStockListB 获取上海证券交易所股票列表
  
B股
  
*/
  
func GetStockListB(saveFile string) (err error) {
  stocks, err := getStockList("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2")
  if err != nil {
  return err
  }
  err = saveStockList2CSV(stocks, saveFile)
  return
  
}
  
func saveStockList2CSV(stockList string, file string) (err error) {
  

  vals := strings.Split(stockList, "\n")
  

  f, err := os.Create(file)
  if err != nil {
  return err
  }
  defer f.Close()
  fw := csv.NewWriter(f)
  

  for _, row := range vals {
  

  rSplits := strings.Split(row, "\t")
  

  rSplitsRslt := make([]string, 0)
  for _, sp := range rSplits {
  trimSp := strings.Trim(sp, " ")
  if len(trimSp) > 0 {
  rSplitsRslt = append(rSplitsRslt, trimSp)
  }
  }
  if len(rSplitsRslt) > 0 {
  err = fw.Write(rSplitsRslt)
  if err != nil {
  return err
  }
  }
  }
  fw.Flush()
  

  return
  
}
  

  
func getStockList(url string) (stockList string, err error) {
  

  //GET http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1 HTTP/1.1
  //Host: query.sse.com.cn
  //Connection: keep-alive
  //Accept: */*
  //Origin: http://www.sse.com.cn
  //User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36
  //Referer: http://www.sse.com.cn/assortment/stock/list/share/
  //Accept-Encoding: gzip, deflate
  //Accept-Language: zh-CN,zh;q=0.9`
  

  c := colly.NewCollector()
  

  c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"
  c.OnRequest(func(r *colly.Request) {
  r.Headers.Set("Host", "query.sse.com.cn")
  r.Headers.Set("Connection", "keep-alive")
  r.Headers.Set("Accept", "*/*")
  r.Headers.Set("Origin", "http://www.sse.com.cn")
  r.Headers.Set("Referer", "http://www.sse.com.cn/assortment/stock/list/share/") //关键头 如果没有 则返回 错误
  r.Headers.Set("Accept-Encoding", "gzip, deflate")
  r.Headers.Set("Accept-Language", "zh-CN,zh;q=0.9")
  })
  c.OnResponse(func(resp *colly.Response) {
  stockList = string(resp.Body)
  })
  

  c.OnError(func(resp *colly.Response, errHttp error) {
  err = errHttp
  })
  

  err = c.Visit(url)
  

  return
  
}
  

  

  

func main() {  

  var err error
  err = sse.GetStockListA("e:\\sseA.csv")
  if err != nil {
  log.Fatal(err)
  }
  err = sse.GetStockListB("e:\\sseB.csv")
  if err != nil {
  log.Fatal(err)
  }
  

  
}
  

  

  转载请注明出处:  http://www.cnblogs.com/majianguo/p/8186429.html



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-597198-1-1.html 上篇帖子: golang channel初次接触 下篇帖子: mac 下配置 VS Code 开发 Golang
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表