<div>。将乱糟糟的 HTML 丢进锅里,熬成一锅结构清晰的靓汤。
from bs4 import BeautifulSoup
html = "<div><p>师姐真美</p></div>"
soup = BeautifulSoup(html, "html.parser")
# 提取所有段落
p_tag = soup.find("p")
print(p_tag.text) # 输出: 师姐真美
# 提取图片链接
# img = soup.find("img")
# print(img["src"])
如果你想同时搜魂成千上万个网站,就需要布下 蜘蛛大阵 (Scrapy Framework)。
它能自动顺着网线爬行,所过之处,数据寸草不留。
任务:假设 soup 是一个靓汤对象,写出提取所有 <a> 标签 (链接) 的代码。