第七重境界:大乘期

第二十八章:搜魂大法 (Web Scraping)

← 上一章 | 返回宗门地图
路人
Py
师尊,我虽然能取回经书 (HTML),但里面全是乱码 (标签)!
我想只看 "师姐的照片" 或者 "小说正文",不想看那些 <div>
有没有办法把有用的东西提取出来?
吉多
老祖
哼,想偷看师姐照片?
这需要修炼 搜魂大法 (Web Scraping)
配合 BeautifulSoupScrapy 法宝,可精准提取任何你想要的信息。

1. 熬制靓汤 (BeautifulSoup)

将乱糟糟的 HTML 丢进锅里,熬成一锅结构清晰的靓汤。

from bs4 import BeautifulSoup

html = "<div><p>师姐真美</p></div>"
soup = BeautifulSoup(html, "html.parser")

2. 精准搜魂 (Finding Elements)

# 提取所有段落
p_tag = soup.find("p")
print(p_tag.text)  # 输出: 师姐真美

# 提取图片链接
# img = soup.find("img")
# print(img["src"])

3. 蜘蛛大阵 (Scrapy)

如果你想同时搜魂成千上万个网站,就需要布下 蜘蛛大阵 (Scrapy Framework)
它能自动顺着网线爬行,所过之处,数据寸草不留。

🎮 试练:提取真言

任务:假设 soup 是一个靓汤对象,写出提取所有 <a> 标签 (链接) 的代码。

搜魂幡已祭出...
请锁定目标...
>>>
下一章:千里传神 →