第二十八章：搜魂大法 (Web Scraping)

路人
Py

师尊，我虽然能取回经书 (HTML)，但里面全是乱码 (标签)！
我想只看 "师姐的照片" 或者 "小说正文"，不想看那些 <div>。
有没有办法把有用的东西提取出来？

吉多
老祖

哼，想偷看师姐照片？
这需要修炼 搜魂大法 (Web Scraping)。
配合 BeautifulSoup 或 Scrapy 法宝，可精准提取任何你想要的信息。

1. 熬制靓汤 (BeautifulSoup)

将乱糟糟的 HTML 丢进锅里，熬成一锅结构清晰的靓汤。

from bs4 import BeautifulSoup

html = "<div><p>师姐真美</p></div>"
soup = BeautifulSoup(html, "html.parser")

# 提取所有段落
p_tag = soup.find("p")
print(p_tag.text)  # 输出: 师姐真美

# 提取图片链接
# img = soup.find("img")
# print(img["src"])

如果你想同时搜魂成千上万个网站，就需要布下 蜘蛛大阵 (Scrapy Framework)。
它能自动顺着网线爬行，所过之处，数据寸草不留。

任务：假设 soup 是一个靓汤对象，写出提取所有 <a> 标签 (链接) 的代码。

搜魂幡已祭出...
请锁定目标...

>>>