2023-06-15 18:48 知乎_产品

关注

Day35：静态网页爬取

alt

在上一节中，我们讲了爬虫中重要的基础知识HTTP请求和响应，并尝试向百度发送请求得到我们看不太懂的响应，这一节我们就要尝试解析这些响应。本节将以百度百科上的Python词条页面为例，讲解如何爬取和处理静态网页数据。

1. 发送HTTP请求

首先，我们需要发送HTTP请求来获取网页的内容，这同我们上一节讲的内容一样的，再复习一遍：假设我们要爬取的目标网站是https://baike.baidu.com/item/Python/407313?fr=aladdin，我们可以使用以下代码发送GET请求：

import requests

url = 'https://baike.baidu.com/item/Python/407313?fr=aladdin'
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    content = response.text
    print(content)
else:
    print('请求失败，状态码：', response.status_code)

上述代码发送了一个GET请求并获取了网页的内容。如果请求成功，我们可以通过response.text属性获取网页的文本内容，当然内容都是HTML文本，接下来就是解读这份文本，获取我们想要的内容。

2. 解析网页内容

2.1 BeautifulSoup库

获取到网页的内容后，接下来需要对网页进行解析。常见的网页解析库包括BeautifulS和等。我们可以使用这些库来提取出我们需要的数据。

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大模型-AI小册文章被收录于专栏

1. AI爱好者，爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生，给实验室搬砖的uu，强烈建议你花时间学完这个，后续搬砖比较猛 4. 任何对编程感兴趣的，且愿意掌握一门技能的人

全部评论

推荐最新楼层

牛客489853314号

哦，原来是是这样

点赞回复分享

发布于 2023-07-14 15:25 上海

10-21 16:07

中国科学技术大学大数据开发工程师

阿里云CIO数开一面在线笔试题1017

隔天1017约的2小时，做三个编程和一个简单：题目1-【SQL实现】学生成绩查询某年级期末考试成绩表，包含信息：student_no(学号）, sourse_no(课程)，score(成绩)。想做如下统计：1、统计每个学生的总分，排名，当前排名与下一名次总分差（如：第n名总分-第n+1名总分，即为分差）；2、统计至少两门挂科（score<60），并且总分排名在年级所有人倒数10位的学生各科成绩；题目2-【SQL/代码实现】活跃用户查询背景说明：以下表记录了用户每天登陆某APP的日志记录流水。table_name：user_login_dataseq(key) user_id data_d...

查看9道真题和解析

点赞评论收藏

分享

10-19 13:34

叮咚买菜_咚力生（管理方向）(准入职员工)

叮咚买菜内推，叮咚买菜内推码

叮咚买菜咚力生面经 一面（hr面）： 1、自我介绍（重点介绍自己有什么经历，证明能够胜任这份岗位） 2、对叮咚买菜的了解 3、对咚力生的了解 4、自己的逻辑思维能力，管理领导能力，在曾经的经历中怎么体现 5、为什么要选择加入叮咚 专业不对口的话会问为什么不从事本专业的工作 6、hr一面重点了解你的基本情况，注意要对自己的简历很熟悉，能够自圆其说 二面（hr和业务主管面） 1、自我介绍（和一面差不多就好，可以更完善） 2、说说你对叮咚模式的了解 3、会了解一下你是什么性格，你希望自己的领导是怎么样的 以及将来自己成为管理了会怎么做 4、自己的优点以及缺点 5、过往经历中让你印象最深的事是什么，面...

点赞评论收藏

分享

10-10 16:30

济宁学院 Java

想问大家一下这个简历能去面试中场吗

一表renzha：面试官：蓝桥杯三等奖？你多去两次厕所都能拿二等吧

点赞评论收藏

分享

10-21 09:52

北京科技大学 Java

双非本211硕选LLM还是开发

实验室是做LLM的，研一做了一个LLM应用的项目，主要是负责RAG这块，做问答，无论文。研一暑期实习也是做的LLM应用，目前在第二段实习，也是多模态RAG方向，一直用的py写一些简单的后端。目前纠结是深入LLM，搞LLM开发+算法，还是兼顾java。求各位大佬给些意见。

点赞评论收藏

分享

评论

1

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客树洞，我想对你说 #

13972次浏览 116人参与

# 大学最后一个寒假，我想…… #

54995次浏览 600人参与

# 快手技术岗信息交流阵地 #

6477次浏览 51人参与

# 如何KTV领导 #

73823次浏览 505人参与

# 牛客周边新品开箱 #

11471次浏览 91人参与

# 机械人集合！你是什么工程师？ #

20947次浏览 91人参与

# 硬件人的春招flag #

52720次浏览 435人参与

# 应届生被毁约被毁意向了怎么办 #

47456次浏览 280人参与

# 求职中的尴尬瞬间 #

6144次浏览 49人参与

# 三一集团提前批进度交流 #

39388次浏览 225人参与

# 机械人避雷的岗位/公司 #

29773次浏览 248人参与

# 大疆工作体验 #

19777次浏览 85人参与

# 牛友的志愿填报指南 #

36150次浏览 188人参与

# 国企还是互联网，你怎么选？ #

172163次浏览 1305人参与

# 怎么给家人解释你的工作？ #

14743次浏览 86人参与

# 得物app工作体验 #

29670次浏览 68人参与

# 你的mentor是什么样的人？ #

18580次浏览 117人参与

# 帮我看看，领导说这话什么意思？ #

24706次浏览 107人参与

# 今年形式下双非本找得到工作吗 #

239439次浏览 1435人参与

# 产品面经 #

224671次浏览 2066人参与

# 校招泡的最久的公司是哪家？ #

15255次浏览 92人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务