2023-06-15 18:54 知乎_产品

关注

Day36：动态网页爬取

alt

上一节我们讲解了使用Python爬取静态网页的信息，但是该方法只能直接获取当前网页HTML的信息，现在很多网站都需要点击才能获取更多信息，这种时候就需要用到我们的动态网页爬取了。

在动态网页爬取中，我们经常会使用Selenium库来模拟浏览器行为，并通过浏览器加载和执行JavaScript代码来获取动态生成的内容。本节将以猫眼电影https://www.maoyan.com/board/4?offset=0 为例，讲解如何爬取、处理动态网页，并重点介绍Selenium库的各个函数和方法。

Selenium库基本函数

Selenium库拥有比静态解析库更为复杂的函数与操作，因为它需要模拟浏览器的行为，所以会涉及创建浏览器对象、页面操作、定位元素、等待页面等操作。我们先一起来看一下：

创建浏览器对象：
- webdriver.Chrome()：创建Chrome浏览器对象。
- webdriver.Firefox()：创建Firefox浏览器对象。
- webdriver.Edge()：创建Edge浏览器对象。
- webdriver.Safari()：创建Safari浏览器对象。
页面操作：
- get(url)：打开指定URL的网页。
- back()：返回上一个页面。
- forward()：前进到下一个页面。
- refresh()：刷新当前页面。
定位元素：
- find_element(By, value)：根据定位方式和定位表达式定位单个元素。
- find_elements(By, value)：根据定位方式和定位表达式定位多个元素。
- 支持的定位方式有：By.ID、By.NAME、By.CLASS_NAME、By.TAG_NAME、By.LINK_TEXT、By.PARTIAL_LINK_TEXT、By.CSS_SELECTOR、By.XPATH。
元素操作：
- element.click()：点击元素。
- element.send_keys(keys)：向元素发送键盘输入。
- element.clear()：清空元素内容。
- element.text：获取元素文本内容。
- element.is_displayed()：判断元素是否可见。
- element.is_selected()：判断元素是否被选中。
等待页面元素：
- WebDriverWait(driver, timeout).until(EC.condition)：创建等待对象，等待指定条件满足。
- 支持的等待条件有：EC.presence_of_element_located、EC.visibility_of_element_located、EC.element_to_be_clickable等。
浏览器控制：
- driver.maximize_window()：最大化浏览器窗口。
- driver.minimize_window()：最小化浏览器窗口
- driver.switch_to.default_content()：切换回默认的页面上下文。
- driver.switch_to.alert：处理弹出框。
- driver.execute_script(script)：执行JavaScript脚本。

爬虫猫眼案例

现在我以猫眼电影https://www.maoyan.com/board/4?offset=0 页面为例，展示如何使用selenium爬取动态网页。

导入必要的库：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from s

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大模型-AI小册文章被收录于专栏

1. AI爱好者，爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生，给实验室搬砖的uu，强烈建议你花时间学完这个，后续搬砖比较猛 4. 任何对编程感兴趣的，且愿意掌握一门技能的人

全部评论

推荐最新楼层

牛客489853314号

这个确实比静态复杂，好多东西都找不到

点赞回复分享

发布于 2023-07-14 15:21 上海

10-21 09:35

厦门大学驱动开发

狗都不干单休，真的不要选单休的工作！

前言除非是真的没办法，或者是工资真的非常非常高，我劝各位真的不要选单休的工作。我毕业第一份工作就是单休的，当时因为转行，再加上疫情工作确实不好找，没办法就选了个单休的公司。单休工作的感受大体如下：单休等于没休，一到周末就不想出去，休息那一天睡个懒觉，起床就到中午了，有精力下午就出去逛一逛。因为第二天又要上班，晚上基本得早点休息，一天就这样子过去了。刚毕业的时候精力好，还能折腾，过了3-4个月就真心不想出门了。而双休，甚至是大小周，起码有个两天的周末你可以兼顾游玩和休息。单休跟双休，或者是大小周对比，一个月分别少休4天、2天；一年下来就是48天，24天；两年就是96天，48天……单休是干6天休一...

点赞评论收藏

10-21 11:08

饿了么_后端研发工程师(准入职员工)

春秋航空内推，春秋航空内推码

春秋✈️ 综合管理类培训生 初试面经搜遍全网没有面经，趁着下午刚面完出一波攒攒秋招人品，希望对uu们有帮助在上海线下面的，半小时左右一波人，是群面哦～记得打印两份简历带上流程：1、自我介绍2、对春秋航空成本管控方面的理解（同组uu答的都好全面，完全没有什么补充hhhh）3、有关财务方面的实习经历介绍，谈谈自己参与的工作、对岗位的理解、对工作提效的想法之类的4、什么渠道投递的简历5、自己的实习投递的渠道是什么6、横向多岗位实习较垂直实习的优劣势（本人实习岗位比较杂hhh）7、对未来的规划，是否想好要做财务方面8、例行反问总体而言，面试官们都非常好，超级温柔～春秋航空2026届秋招启动~ 【我们是...

点赞评论收藏

09-01 11:31

门头沟学院 Java

太支持了

新的招聘模式 很难不支持

buul：七牛云的吧，感觉想法是好的，但是大家没那么多时间弄他这个啊。。。不知道的还以为他是顶尖大厂呢还搞比赛抢hc，只能说应试者的痛苦考察方是无法理解的，他们只会想一出是一出

点赞评论收藏

09-18 20:41

门头沟学院 Java

秋招难度就这？

又拿到两个offer 哈哈哈哈哈好开心

要个offer怎么这...：哈哈哈哈哈哈，我也拿了0x10000000个offer，秋招温啦啦啦，好开心

我的秋招日记

点赞评论收藏

10-20 00:52

后端工程师

腾讯内推腾讯内推码

腾讯内推开始了！全程push杜绝石沉大海 ，加入我们腾讯 热乎乎的内推码：EUTPZZRV  在腾讯，你将有机会参与国际化项目，拓展全球视野，与世界各地的人才共同合作。 分享一些面经： 第一轮技术面  闭包作用及实际应用场景 HTTP/1.1、HTTP/2、HTTP/3的核心差异 实现红绿灯控制效果（异步时序逻辑） React Hooks的设计动机与类组件对比 浏览器事件代理原理及实际应用 手写Promise核心逻辑（包含resolve/reject） 数组去重与高频字符统计算法 Web安全防护措施（XSS、CSRF） 浏览器渲染流程与重排/重绘优化 跨域解决方案（JSONP、CORS、代理）...

点赞评论收藏

全站热榜

创作者周榜

正在热议