cl_303303303 发表于 2018-8-13 13:38:35

python网络数据采集第一天

  findAll(tag, attributes, recursive, text, limit, keywords)
  find(tag, attributes, recursive, text, keywords)
  标签参数tag :传一个标签的名称或多个标签名称组成的 Python 列表做标签参数
  属性参数attributes 是用一个 python 字典封装一个标签的若干属性和对应的属性值
  递归参数 recursive 是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息?如果 recursive 设置为 True ,findAll 就会根据你的要求去查找标签参数的所有子标签,以及子标签的子标签。如果 recursive 设置为 False ,findAll 就只查找文档的一级标签。findAll 默认是支持递归查找的(recursive 默认值是 True );
  文本参数 text 用标签的文本内容去匹配,而不是用标签的属性
  在 BeautifulSoup 库里,所有的子标签都是后代标签,但不是所有的后代标签都是子标签。如果你只想找出子标签,可以用 .children 标签
  BeautifulSoup 的 next_siblings() 函数可以让收集表格数据成为简单的事情.
  在抓取网页的时候,查找父标签的需求比查找子标签和兄弟标签要少很多。通常情况
  下,如果以抓取网页内容为目的来观察 HTML 页面,我们都是从最上层标签开始的,然
  后思考如何定位我们想要的数据块所在的位置。但是,偶尔在特殊情况下你也会用到
  BeautifulSoup 的父标签查找函数, parent 和 parents 。
页: [1]
查看完整版本: python网络数据采集第一天