Day35:静态网页爬取

alt

在上一节中,我们讲了爬虫中重要的基础知识HTTP请求和响应,并尝试向百度发送请求得到我们看不太懂的响应,这一节我们就要尝试解析这些响应。本节将以百度百科上的Python词条页面为例,讲解如何爬取和处理静态网页数据。

1. 发送HTTP请求

首先,我们需要发送HTTP请求来获取网页的内容,这同我们上一节讲的内容一样的,再复习一遍:假设我们要爬取的目标网站是https://baike.baidu.com/item/Python/407313?fr=aladdin,我们可以使用以下代码发送GET请求:

import requests

url = 'https://baike.baidu.com/item/Python/407313?fr=aladdin'
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    content = response.text
    print(content)
else:
    print('请求失败,状态码:', response.status_code)

上述代码发送了一个GET请求并获取了网页的内容。如果请求成功,我们可以通过response.text属性获取网页的文本内容,当然内容都是HTML文本,接下来就是解读这份文本,获取我们想要的内容。

2. 解析网页内容

2.1 BeautifulSoup库

获取到网页的内容后,接下来需要对网页进行解析。常见的网页解析库包括BeautifulS和等。我们可以使用这些库来提取出我们需要的数据。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

大模型-AI小册 文章被收录于专栏

1. AI爱好者,爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生,给实验室搬砖的uu,强烈建议你花时间学完这个,后续搬砖比较猛 4. 任何对编程感兴趣的,且愿意掌握一门技能的人

全部评论
哦,原来是是这样
点赞 回复 分享
发布于 2023-07-14 15:25 上海

相关推荐

不愿透露姓名的神秘牛友
06-23 18:30
美团优选内容调整,屁股都没离开座椅呢,多多买菜来挖了
熬夜脱发码农:哈,拼多多真挖人是吧
投递美团等公司8个岗位 >
点赞 评论 收藏
分享
龙珠传说:nb,公务员解约不需要支付违约金吧
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务