python网络数据采集第一天

cl_303303303 发表于 2018-8-13 13:38:35

　　findAll(tag, attributes, recursive, text, limit, keywords)
　　find(tag, attributes, recursive, text, keywords)
　　标签参数tag ：传一个标签的名称或多个标签名称组成的 Python 列表做标签参数
　　属性参数attributes 是用一个 python 字典封装一个标签的若干属性和对应的属性值
　　递归参数 recursive 是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息？如果 recursive 设置为 True ，findAll 就会根据你的要求去查找标签参数的所有子标签，以及子标签的子标签。如果 recursive 设置为 False ，findAll 就只查找文档的一级标签。findAll 默认是支持递归查找的（recursive 默认值是 True ）；
　　文本参数 text 用标签的文本内容去匹配，而不是用标签的属性
　　在 BeautifulSoup 库里，所有的子标签都是后代标签，但不是所有的后代标签都是子标签。如果你只想找出子标签，可以用 .children 标签
　　BeautifulSoup 的 next_siblings() 函数可以让收集表格数据成为简单的事情.
　　在抓取网页的时候，查找父标签的需求比查找子标签和兄弟标签要少很多。通常情况
　　下，如果以抓取网页内容为目的来观察 HTML 页面，我们都是从最上层标签开始的，然
　　后思考如何定位我们想要的数据块所在的位置。但是，偶尔在特殊情况下你也会用到
　　BeautifulSoup 的父标签查找函数， parent 和 parents 。

页: [1]

运维网's Archiver

python网络数据采集第一天