Beautifulsoup:用于处理html文件的python模块

使用

pip install BeautifulSoup4
pip install lxml #依赖
from bs4 import BeautifulSoup

中文文档

示例

# 使用lxml格式对原始数据进行解析。
soup = BeautifulSoup(rawdata,'lxml')
# 获取所有类型为a、并且title属性为RSS Feed的元素,返回值为一个列表
link = soup.select('a[title="RSS Feed"]')
# 使用 .类型 的方式获取源文件内的所有p元素。并用contents获取p元素的内容。
p = BeautifulSoup(entry['summary'],'lxml').p
p.contents[0]

参考:

  1. https://blog.csdn.net/qq_21933615/article/details/81171951
  2. https://www.cnblogs.com/lone5wolf/p/10881395.html