BeautifulSoup简介
旧教程
之前已有写过一个旧版本的教程,用docbook发布的:Python专题教程:BeautifulSoup详解
现已把其内容整理合并到此新版教程。
对于HTML网页的解析,可以使用Python中的正则表达式re去提取所需内容。
但是前提(往往是)被解析的html不够复杂,否则正则就很难写,或者说写不出来。
而对于html网页(和xml)的解析,有个专门的库,叫做:
BeautifulSoup- 简称:
bs- 最新版本是
v4,简称:bs4
- 最新版本是
- 核心功能:解析
HTML和XML - 特点
- 功能强大
- 支持语法有问题的
HTML的解析
- 简称:
为何叫BeautifulSoup
BeautifulSoup- 中文直译:
美味的汤- 个人推测是:
- -》 (让人)喝起来很爽(的汤)
- -》
BeautifulSoup的目的就是:- 让你从网页中提取内容很方便
- -》让你像喝美味的汤一样的爽
- 让你从网页中提取内容很方便
- -》
- -》 (让人)喝起来很爽(的汤)
- 个人推测是:
- 中文直译:
什么时候会用到BeautifulSoup
BeautifulSoup这个技术所属领域:一般来说属于Python的爬虫相关的技术领域范围内
一般是在:已经用requests等库或框架,爬取得到了网页源码,然后想要从html源码中提取特定的内容时
往往才会用到这个:BeautifulSoup
BeautifulSoup的版本
- 之前:
BeautifulSoup 3- 只支持
Python 2- Python官网(在20200101之后)已不再继续维护
Python 2了- 现在已经是20200216了,大家也都尽量不再用Python 2,而改用
Python 3了
- 现在已经是20200216了,大家也都尽量不再用Python 2,而改用
- Python官网(在20200101之后)已不再继续维护
- 最后版本:3.2.2
- 截至:2019-10-05
- 安装包:
Debian/Ubuntu:python-beautifulsoupFedora:python-BeautifulSoup
- 只支持
- 最新:
BeautifulSoup 4- 支持:
Python 2(2.7+)和Python 3 - 最新版本是:
Beautiful Soup 4.8.2- 截至:2019-12-24
- 基于BeautifulSoup 4有个:
bs4- 安装包
Debian/UbuntuPython 2:python-bs4Python 3:python3-bs4
Fedorapython-beautifulsoup4
- 安装包
- 支持:
官网文档
- 主入口
- Beautiful Soup: We called him Tortoise because he taught us
- api文档
- 英文
- Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation
- 中文
- Beautiful Soup 4.4.0 文档 — Beautiful Soup 4.2.0 documentation
- 英文
旧文档
附上BS3=BeautifulSoup v3的旧文档,仅供参考
- Beautiful Soup documentation v3