Day35:静态网页爬取
在上一节中,我们讲了爬虫中重要的基础知识HTTP请求和响应,并尝试向百度发送请求得到我们看不太懂的响应,这一节我们就要尝试解析这些响应。本节将以百度百科上的Python词条页面为例,讲解如何爬取和处理静态网页数据。
1. 发送HTTP请求
首先,我们需要发送HTTP请求来获取网页的内容,这同我们上一节讲的内容一样的,再复习一遍:假设我们要爬取的目标网站是https://baike.baidu.com/item/Python/407313?fr=aladdin
,我们可以使用以下代码发送GET请求:
import requests
url = 'https://baike.baidu.com/item/Python/407313?fr=aladdin'
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
content = response.text
print(content)
else:
print('请求失败,状态码:', response.status_code)
上述代码发送了一个GET请求并获取了网页的内容。如果请求成功,我们可以通过response.text
属性获取网页的文本内容,当然内容都是HTML文本,接下来就是解读这份文本,获取我们想要的内容。
2. 解析网页内容
2.1 BeautifulSoup库
获取到网页的内容后,接下来需要对网页进行解析。常见的网页解析库包括BeautifulS
和等。我们可以使用这些库来提取出我们需要的数据。
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
大模型-AI小册 文章被收录于专栏
1. AI爱好者,爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生,给实验室搬砖的uu,强烈建议你花时间学完这个,后续搬砖比较猛 4. 任何对编程感兴趣的,且愿意掌握一门技能的人