2023-06-16 14:55 知乎_产品

关注

Day39：Python爬虫项目实战

alt

在前面的章节中，我们了解了爬虫的用法，学会了使用爬虫进行一些网页内容的爬虫，也了解了一些高级的爬虫技术，现在我们我们整合前面所学的爬虫以及数据分析知识，一起来完成一个项目。

在这个项目中，我们将以猫眼电影网站（https://www.maoyan.com/）为例，爬取TOP100榜单的电影信息，总共需要爬取10页，然后进行数据分析。

导入所需的库和模块：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import pandas as pd
import time
import numpy as np

配置浏览器选项：

# 配置Chrome浏览器驱动
chrome_options = Options()
chrome_options.add_argument("User_agent")  # 浏览器模式，便于手动验证滑块
driver = webdriver.Chrome(chrome_options=chrome_options)

# 发送HTTP请求并获取页面内容
url = "https://www.maoyan.com/board/4?offset=0"
driver.get(url)
time.sleep(5)
page_content = driver.page_source
# 使用BeautifulSoup解析页面内容并提取电影信息
soup = BeautifulSoup(page_content, "html.parser")

通过url偏置跳转不同的页面：

我们观察猫眼的网站URL，一页只有10部电影，且每页面通过偏置实现，故我们也可以通过偏置改变URL，从而访问后面的页面。

10alt

for offset in range(0, 100, 10):
    url = f"https://www.maoyan.com/board/4?offset={offset}"
    driver.get(url)
    time.sleep(5) #出现滑块可验证
    page_content = driver.page_source

获取数据：

我们可以使用BeautifulSoup库中的select方法选中我们要获取的元素，选中的名称可以通过在浏览器中国呢用Fn+F12查看，同时我们用列表中字典的形式保存数据。

11alt

soup = BeautifulSoup(page_content, "html.parser")
    items = soup.select("dd")
    for item in items:
        movie = {}
        movie["rank"] = item.select_one(".board-index").text #排名
        movie["name"] = item.select_one(".name a").text #电影名
        movie["score"] = item.select_one(".score").text #得分
        star = item.select_one(".star").text #主演
        movie["star"] = str(star).replace('\n', '').strip()[3:] #格式化主演信息
        release = item.select_one(".releasetime").text #上映时间
        movi

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大模型-AI小册文章被收录于专栏

1. AI爱好者，爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生，给实验室搬砖的uu，强烈建议你花时间学完这个，后续搬砖比较猛 4. 任何对编程感兴趣的，且愿意掌握一门技能的人

全部评论

推荐最新楼层

牛客489853314号

怎么就串起来了

点赞回复分享

发布于 2023-07-14 15:21 上海

06-17 18:23

顺丰集团_大数据挖掘与分析工程师(准入职员工)

顺丰内推-顺丰内推码

已经来工作一个多月啦，感觉幸福度很高，顺丰真的是很值得来的一家公司！公司里的氛围很好，同事们很nice很好沟通，和大家私下相处也贼融洽。工作很充实但是没什么压力，领导带教都不push，感觉每天来公司都很开心~💼 公司岗位数据分析💢 工作强度在整个集团里算卷的，顺丰科技大多数部门965美滋滋，但是我进的部门业务多975，双休基本可以保证，需求多的话周末也要赶一下进度。🫶️ 团队氛围进的团队好，前辈都很热心教人，有问必答。❤️ 职场感受希望我这次转正能通过吧，能过的话会来报喜😊6月还有HC！！！顺丰科技25届校招+26届暑期实习内推启动！【🍀内推码】0H0PCC（简历来源选择校园大使）【...

顺丰集团工作强度 125人发布

点赞评论收藏

分享

06-14 10:00

西安科技大学 golang

boss直聘活人hr哈哈哈哈哈

笑死 不是哥们离校了我真要睡街了 加上还有几w的贷款 不接受我准备去当三和大神

梦想是成为七海千秋：没事，hr这下就有底气了，下次遇到一个不接受的就说，你看，人家这学历都接受了，你凭什么不接受

点赞评论收藏

分享

05-11 19:19

河南科技大学 Java

26届，从来没实习过，求建议 前辈们

无、：不能吧黑马点评删了吗

点赞评论收藏

分享

05-27 04:13

门头沟学院 Java

二本应届女生求看看简历，不玻璃心

  投了三天简历了，真的要炸了，没有一个有后续的。  其实不是最终版简历，有些地方还在修改，因为这一版其实是注了水的，八股也没背完，拿不稳，但是现在这个简历出去连个面试邀请都没有就很焦虑。  只有一个疑似骗子皮套的小公司给我来了个电话沟通，让我后续商议面试，但是查了一下公司几乎全是同一天冒出来的疑点很多就没理了。  实习经历里的公司其实算是我参与了初创的一个公司，做游戏服务器出租平台的，所以写了有参与架构设计和开发。但是这里会不会让人第一印象感觉很水？是不是应该适当改一下？   大佬们随便说想法随便骂，不玻璃心，能骂醒我也行😢就当提前体验社会了，，如果有闲着的大佬看我的简历说两句可能会被问的死点也行...拜托了   焦虑到凌晨四点睡不着起来发帖。。。。。。

计算机劝退第一人：98份养老呢

点赞评论收藏

分享

06-16 17:12

已编辑

广东理工学院 Java

双非一本0offer找java实习太难了

4月底开始投简历，投的太晚了，当初不了解情况以为暑假前开始投就可以，还是太傻太天真了，官网投的稍微大点的，小的就ssob投，剩下没有的选牛客内推的简历基本都挂了。其中ssob投了50份简历，也不到10个面试，都是小厂，好不容易过了一个还是做网络爬虫的，当天离职，现在等绿盟的回复😭，这年头大家都挑挑拣拣了。本人算法也贼烂属于入门级别，快手学长给内推直接笔试挂，每天焦虑的要死😭，没实习秋招咋整，秋招找实习或许能好点？这几天突然有了一丝考研的念头了，但是有点太晚了😭现在要是刚大二多好啊 。有没有同学给些好的建议啊，天天都在焦虑，每天饭都吃不香😭

投递快手等公司8个岗位 > 我的求职总结

点赞评论收藏

分享

评论

1

1

全站热榜

更多

华为开奖进展

热聊中

创作者周榜

更多

正在热议

更多

# 我的职场心眼子段位 #

6146次浏览 242人参与

# 生物制药/化工校招攻略 #

45413次浏览 289人参与

# 实习最想跑路的瞬间 #

6159次浏览 61人参与

# 上班到公司第一件事做什么？ #

54269次浏览 449人参与

# 你找实习最大的坎坷是什么 #

5525次浏览 70人参与

# 视觉/交互/设计百问百答 #

44740次浏览 433人参与

# 你见过最离谱的招聘要求是什么？ #

192518次浏览 1421人参与

# 多益网络工作体验 #

46520次浏览 257人参与

# 硬件人秋招的第一个offer #

74351次浏览 1130人参与

# 工作中的卑微时刻 #

13713次浏览 101人参与

# 我的求职精神状态 #

70109次浏览 862人参与

# 你的房租占工资的比例是多少？ #

34460次浏览 505人参与

# 硬件人秋招进展 #

201599次浏览 3552人参与

# 2023毕业生求职有问必答 #

174749次浏览 1617人参与

# lastday知无不言 #

53853次浏览 447人参与

# 打工人的辛酸 #

41021次浏览 425人参与

# 牛友故事会 #

730741次浏览 14560人参与

# 大疆求职进展汇总 #

504220次浏览 3289人参与

# 当你面对裁员会如何？ #

265788次浏览 2360人参与

# 打工人的精神状态 #

46599次浏览 822人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务