python网络数据采集第一天

cl_303303303 · 发表于 2018-8-13 13:38:35

　　findAll(tag, attributes, recursive, text, limit, keywords)
　　find(tag, attributes, recursive, text, keywords)
　　标签参数tag ：传一个标签的名称或多个标签名称组成的 Python 列表做标签参数
　　属性参数attributes 是用一个 python 字典封装一个标签的若干属性和对应的属性值
　　递归参数 recursive 是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息？如果 recursive 设置为 True ，findAll 就会根据你的要求去查找标签参数的所有子标签，以及子标签的子标签。如果 recursive 设置为 False ，findAll 就只查找文档的一级标签。findAll 默认是支持递归查找的（recursive 默认值是 True ）；
　　文本参数 text 用标签的文本内容去匹配，而不是用标签的属性
　　在 BeautifulSoup 库里，所有的子标签都是后代标签，但不是所有的后代标签都是子标签。如果你只想找出子标签，可以用 .children 标签
　　BeautifulSoup 的 next_siblings() 函数可以让收集表格数据成为简单的事情.
　　在抓取网页的时候，查找父标签的需求比查找子标签和兄弟标签要少很多。通常情况
　　下，如果以抓取网页内容为目的来观察 HTML 页面，我们都是从最上层标签开始的，然
　　后思考如何定位我们想要的数据块所在的位置。但是，偶尔在特殊情况下你也会用到
　　BeautifulSoup 的父标签查找函数， parent 和 parents 。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] python网络数据采集第一天

浏览过的版块

扫码加入运维网微信交流群