附答案 | 最强Python面试题之爬虫框架问题_牛客网

别问了别问了答不出来了

门头沟学院后端工程师发布于湖北

关注

mark

@编程文青李狗蛋：附答案 | 最强Python面试题之爬虫框架问题

写在之前大家好呀，我是帅蛋。好久没来更新最强面试题系列啦，大家快把“想我”大大的打在评论区，哈哈哈哈哈哈~       今天来更新 Python 最强爬虫框架面试，这一部分一共 13 道题。Python 面试八股文尽在帅蛋的【最强Python面试题】，大家一定要记得点赞收藏呀！！！欢迎和帅蛋聊一聊~扣扣2群：609771600，获取最新秋招信息 & 内推进度，日常聊聊迷茫吹吹牛皮，抱团取暖顺便提一句，我所有和面试相关的内容都会放在#帅蛋的面试空间# 中，大家可以关注下这个话题~ 我会尽我最大的努力帮助到大家哒！！！       主要内容这些面试题是我结合自己的经验整理的，主要就是下面这 5 个专题： Python 基础面试题（已完成） Python 进阶（已完成） Python 后台开发（已完成）爬虫机器学习 PS：往期文章可以看文末链接哟~ 对每道面试题我都会附带详细的答案，有些我觉得重要的内容会详细讲解，虽然是面试八股文，我还是希望大家不是只“知其然”，更得“知其所以然”。关于更新频率，每天我会更新 10 道题左右，总共会有差不多 200 道。无论是准备面试还是自己学习，这份面试题绝对值得你去看，去学习。大家可以关注我，再关注我，使劲关注我，不要错过每天的更新~       以下是正文  Python 爬虫框架问题，大家一定要记得点赞收藏，一起加油！欢迎和帅蛋聊一聊~扣扣2群：609771600，获取最新秋招信息 & 内推进度，日常聊聊迷茫吹吹牛皮，抱团取暖 1、描述下 scrapy 框架运行的机制？从 start_urls 里获取第一批 url 并发送请求，请求由引擎交给调度器入请求队列，获取完毕后，调度器将请求队列里的请求交给下载器去获取请求对应的响应资源，并将响应交给自己编写的解析方法做提取处理： (1) 如果提取出需要的数据，则交给管道文件处理； (2) 如果提取出 url，则继续执行之前的步骤（发送 url 请求，并由引擎将请求交给调度器入队列...)，直到请求队列里没有请求，程序结束。 2、谈谈你对 Scrapy 的理解？ scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted 异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。 scrapy 框架的工作流程： (1) 首先 Spiders（爬虫）将需要发送请求的 url(requests)经 ScrapyEngine（引擎）交给 Scheduler（调度器） (2) Scheduler（排序，入队）处理后，经 ScrapyEngine，DownloaderMiddlewares(可选，主要有 User_Agent， Proxy 代理)交给 Downloader (3) Downloader 向互联网发送请求，并接收下载响应（response）。将响应（response）经ScrapyEngine，SpiderMiddlewares(可选)交给 Spiders (4)Spiders 处理 response，提取数据并将数据经 ScrapyEngine 交给 ItemPipeline 保存（可以是本地，可以是数据库）。提取 url 重新经 ScrapyEngine 交给 Scheduler 进行下一个循环。直到无 Url 请求程序停止结束 3、什么是增量爬取？增量爬取即保存上一次状态，本次抓取时与上次比对，如果不在上次的状态中，便视为增量，保存下来。对于 scrapy 来说，上一次的状态是抓取的特征数据和上次爬取的 request 队列（url 列表），request 队列可以通过 request 队列可以通过 scrapy.core.scheduler 的 pending_requests 成员得到，在爬虫启动时导入上次爬取的特征数据，并且用上次 request 队列的数据作为 start url 进行爬取，不在上一次状态中的数据便保存。选用 BloomFilter 原因：对爬虫爬取数据的保存有多种形式，可以是数据库，可以是磁盘文件等，不管是数据库，还是磁盘文件，进行扫描和存储都有很大的时间和空间上的开销，为了从时间和空间上提升性能，故选用 BloomFilter 作为上一次爬取数据的保存。保存的特征数据可以是数据的某几项，即监控这几项数据，一旦这几项数据有变化，便视为增量持久化下来，根据增量的规则可以对保存的状态数据进行约束。比如：可以选网页更新的时间，索引次数或是网页的实际内容，cookie 的更新等。 4、爬虫向数据库存数据开始和结束都会发一条消息，是 scrapy 哪个模块实现的？ Scrapy 使用信号来通知事情发生，因此答案是 signals 模块。 5、爬取下来的数据如何去重，说一下具体的算法依据？ (1)通过 MD5 生成电子指纹来判断页面是否改变 (2) nutch 去重。nutch 中 digest 是对采集的每一个网页内容的 32 位哈希值，如果两个网页内容完全一样，它们的 digest 值肯定会一样。数据量不大时，可以直接放在内存里面进行去重，python 可以使用 set()进行去重。当去重数据需要持久化时可以使用 redis 的 set 数据结构。当数据量再大一点时，可以用不同的加密算法先将长字符串压缩成 16/32/40 个字符，再使用上面两种方法去重。当数据量达到亿（甚至十亿、百亿）数量级时，内存有限，必须用“位”来去重，才能够满足需求。Bloomfilter 就是将去重对象映射到几个内存“位”，通过几个位的 0/1 值来判断一个对象是否已经存在。然而 Bloomfilter 运行在一台机器的内存上，不方便持久化（机器 down 掉就什么都没啦），也不方便分布式爬虫的统一去重。如果可以在 Redis 上申请内存进行 Bloomfilter，以上两个问题就都能解决了。 simhash 最牛逼的一点就是将一个文档，最后转换成一个 64 位的字节，暂且称之为特征字，然后判断重复只需要判断他们的特征字的距离是不是<n（根据经验这个 n 一般取值为 3），就可以判断两个文档是否相似。可见 scrapy_redis 是利用 set 数据结构来去重的，去重的对象是 request 的 fingerprint（其实就是用 hashlib.sha1()对 request 对象的某些字段信息进行压缩）。其实 fp 就是 request 对象加密压缩后的一个字符串（40 个字符，0~f）。 6、Scrapy 的优缺点？优点 (1) scrapy 是异步的 (2) 采取可读性更强的 xpath 代替正则 (3)强大的统计和 log 系统 (4) 同时在不同的 url 上爬行 (5) 支持 shell 方式，方便独立调试 (6) 写 middleware,方便写一些统一的过滤器 (7) 通过管道的方式存入数据库缺点 (1) 基于 python 的爬虫框架，扩展性比较差 (2) 基于 twisted 框架，运行中的 exception 是不会干掉 reactor（反应器），并且异步框架出错后是不会停掉其他任务的，数据出错后难以察觉。 7、什么是 scrapy-redis 中的指纹？是如何去重的？指纹通过 sha1 加密，把请求体，请求方式，请求 url 放在一起。然后进行 16 进制的转义符字符串生成指纹。生成一个字符串，放到数据库中作为唯一标示。去重 url 中按照 url 去重： (1) 按照 url 去重，有一个列表，发送请求之前从数据表中看一下这个 url有没有请求过，请求过了就不用看了 (2) 内容判断，从数据库中查数据的表示，如果请求过了就在不在请求了。 8、怎么设置深度爬取？通过在 settings.py 中设置 depth_limit 的值可以限制爬取深度，这个深度是与 start_urls 中定义 url 的相对值。也就是相对 url 的深度。若定义 url 为 http://www.domz.com/game/,depth_limit=1 那么限制爬取的只能是此 url 下一级的网页。深度大于设置值的将被忽视。 9、scrapy 和 scrapy-redis 有什么区别？为什么选择 redis 数据库？ scrapy 是一个 Python 爬虫框架，爬取效率极高，具有高度定制性，但是不支持分布式。而scrapy-redis 一套基于 redis 数据库、运行在 scrapy 框架之上的组件，可以让 scrapy 支持分布策略，Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。为什么选择 redis 数据库，因为 redis 支持主从同步，而且数据都是缓存在内存中的，所以基于 redis的分布式爬虫，对请求和数据的高频读取效率非常高。 10、分布式爬虫主要解决什么问题？主要解决一下 4 个问题： (1) ip (2) 带宽 (3) cpu (4) io 11、什么是反向代理？作用是什么？代理可以假扮 Web 服务器。这些被称为替换物(surrogate)或反向代理(reverse proxy)的代理接收发送给 Web 服务器的真实请求，但与 Web 服务器不同的是，它们可以发起与其他服务器的通信，以便按需定位所请求的内容。可以用这些反向代理来提高访问慢速 Web 服务器上公共内容的性能。在这种配置中，通常将这些反向代理称为服务器***(server accelerator)。还可以将替换物与内容路由功能配合使用，以创建按需复制内容的分布式网络。 12、什么是分布式存储？传统定义分布式存储系统是大量 PC 服务器通过 Internet 互联，对外提供一个整体的服务。分布式存储系统具有以下特性 (1) 可扩展：分布式存储系统可以扩展到几百台甚至几千台这样的一个集群规模，系统的整体性能线性增长。 (2) 低成本：分布式存储系统的自动容错、自动负载均衡的特性，允许分布式存储系统可以构建在低成本的服务器上。另外，线性的扩展能力也使得增加、减少服务器的成本低，实现分布式存储系统的自动运维。 (3) 高性能：无论是针对单台服务器，还是针对整个分布式的存储集群，都要求分布式存储系统具备高性能。 (4) 易用：分布式存储系统需要对外提供方便易用的接口，另外，也需要具备完善的监控、运维工具，并且可以方便的与其他的系统进行集成。分布式存储系统的挑战主要在于数据和状态信息的持久化，要求在自动迁移、自动容错和并发读写的过程中，保证数据的一致性。 (5) 容错：可以快速检测到服务器故障，并自动的将在故障服务器上的数据进行迁移。 (6) 负载均衡：新增的服务器在集群中保障负载均衡？数据迁移过程中保障不影响现有的服务。 (7) 事务与并发控制：实现分布式事务。 (8) 易用性：设计对外接口，使得设计的系统易于使用。 13、你所知道的分布式爬虫方案有哪些？ 3 种分布式爬虫策略 (1) Slaver 端从 Master 端拿任务（Request/url/ID）进行数据抓取，在抓取数据的同时也生成新任务，并将任务抛给 Master。Master 端只有一个 Redis 数据库，负责对 Slaver 提交的任务进行去重、加入待爬队列。优点： scrapy-redis 默认使用的就是这种策略，我们实现起来很简单，因为任务调度等工作 scrapy-redis 都已经帮我们做好了，我们只需要继承 RedisSpider、指定 redis_key 就行了。缺点： scrapy-redis 调度的任务是 Request 对象，里面信息量比较大（不仅包含 url，还有 callback 函数、headers 等信息），导致的结果就是会降低爬虫速度、而且会占用 Redis 大量的存储空间。当然我们可以重写方法实现调度 url 或者用户 ID。 (2) Master 端跑一个程序去生成任务（Request/url/ID）。Master 端负责的是生产任务，并把任务去重、加入到待爬队列。Slaver 只管从 Master 端拿任务去爬。优点： 将生成任务和抓取数据分开，分工明确，减少了 Master 和 Slaver 之间的数据交流；Master 端生成任务还有一个好处就是：可以很方便地重写判重策略（当数据量大时优化判重的性能和速度还是很重要的）。缺点： 像 QQ 或者新浪微博这种网站，发送一个请求，返回的内容里面可能包含几十个待爬的用户 ID，即几十个新爬虫任务。但有些网站一个请求只能得到一两个新任务，并且返回的内容里也包含爬虫要抓取的目标信息，如果将生成任务和抓取任务分开反而会降低爬虫抓取效率。毕竟带宽也是爬虫的一个瓶颈问题，我们要秉着发送尽量少的请求为原则，同时也是为了减轻网站服务器的压力，要做一只有道德的 Crawler。所以，视情况而定。 3.Master 中只有一个集合，它只有查询的作用。Slaver 在遇到新任务时询问 Master 此任务是否已爬，如果未爬则加入 Slaver 自己的待爬队列中，Master 把此任务记为已爬。它和策略一比较像，但明显比策略一简单。策略一的简单是因为有 scrapy-redis 实现了 scheduler 中间件，它并不适用于非 scrapy 框架的爬虫。优点： 实现简单，非 scrapy 框架的爬虫也适用。Master 端压力比较小，Master 与 Slaver 的数据交流也不大。缺点：“健壮性”不够，需要另外定时保存待爬队列以实现“断点续爬”功能。各 Slaver 的待爬任务不通用。如果把 Slaver 比作工人，把 Master 比作工头。策略一就是工人遇到新任务都上报给工头，需要干活的时候就去工头那里领任务；策略二就是工头去找新任务，工人只管从工头那里领任务干活；策略三就是工人遇到新任务时询问工头此任务是否有人做了，没有的话工人就将此任务加到自己的“行程表”。已完成 Python 基础题附答案 | 最强Python面试题之Python基础题(1) 附答案 | 最强Python面试题之Python基础题(2) 附答案 | 最强Python面试题之Python基础题(3) 附答案 | 最强Python面试题之Python基础题(4) Python 进阶题附答案 | 最强Python面试题之Python进阶题第一弹附答案 | 最强Python面试题之Python进阶题第二弹附答案 | 最强Python面试题之Python进阶题第三弹附答案 | 最强Python面试题之Python进阶题第四弹 Python 后台开发附答案 | 最强Python面试题之Python开发第一弹附答案 | 最强Python面试题之Python开发第二弹附答案 | 最强Python面试题之Python开发第三弹附答案 | 最强Python面试题之Python开发第四弹以上就是今天的内容，我是帅蛋，我们明天见~ ❤️ 欢迎关注我，有问题，找帅蛋，我最看不得别人迷茫！ ❤️ 如果你觉得有帮助,希望爱学习的你不要吝啬三连击哟[点赞 + 收藏 + 评论]~ 还有小小公众号 【编程文青李狗蛋】，聊聊迷茫吹吹牛皮~   

点赞 33

评论 10

全部评论

推荐最新楼层

昨天 22:32

已编辑

中南大学 Java

入职互联网厂大半年，我觉得ai时代学历更加重要了

入职互联网大厂大半年，我是部门唯一的本科生，亲身经历和身边人的对比，让我对学历在求职和职业发展里的分量，有了比学生时代更清醒的理解。今天想把这些真实感受，认真和大家聊一聊。首先我特别想反驳一个流传很广的论调：本科能就业就别读研。每次看到有同学明明有保研机会，却被这种说法忽悠着直接工作，都觉得特别可惜。结合技术岗的实际情况，我把市面上的工作大致分成两类：一类是真正的大厂岗位，起薪可观，更关键的是身边同事整体水平高，能接触到行业前沿的技术和成熟的体系，这段经历本身就是未来跳槽、晋升的重要背书，我把这叫作给自己构筑职业壁垒；另一类更像是单纯的体力消耗，薪资不高，工作内容重复且无成长，对后续职业发展几...

校招生月薪1W算什么水平

点赞评论收藏

分享

03-27 20:52

已编辑

门头沟学院数据分析师

春招投了47家，回头看最浪费时间的三件事

说一下背景，26届，数据分析，211本，目标是互联网数据分析+银行数据岗。从2月初投到3月中，陆陆续续投了47家，现在基本上岸了，复盘一下踩过的坑。 1、前两周填表填到想死 这个是我觉得最亏的。前面十几家全是手动填的网申表单，教育经历项目经历实习经历，每家都要重新填一遍，而且有的公司表单巨长，一家能搞15分钟。填到第十家的时候真的有点崩溃，明明都是一样的东西为什么要我填十遍。 后来室友给我推了牛客那个网申助手，录一次信息之后每家打开就自动填好了，我当时的心情就是：我前两周在干嘛。 点击获取：https://www.nowcoder.com/my/resume-plugin-intro 2、海投...

加班小达人：最近好多人在推这个插件啊

春招/暑实第一面是哪家？

点赞评论收藏

分享

02-24 13:27

百度_acg_千帆agent开发(实习员工)

组长说这是百度十年来第一次，我没绷住

不过还是挺开心的hhh

哈哈哈，你是老六：百度去年裁员分评不好，赶紧弄点红包

点赞评论收藏

分享

03-08 21:48

哈尔滨理工大学游戏后端

学java第六天，效率太慢了把游戏删了我再玩是sb

牛客44320985...：你的当务之急是把这个糖的要死的沟槽ide主题改了

点赞评论收藏

分享

03-23 08:42

厦门大学驱动开发

26嵌入式软件工作一个月总结

本人26届硕士应届生，秋招签了个公司的嵌入式岗，主要搞linux开发，目前已经提前入职实习一周啦。 总的来说公司氛围还是不错的，有问题直接问同事都会耐心解答。去的第一周mentor就请喝饮料和请吃饭，第一周主要是看技术文档，理解公司产品业务逻辑和框架，然后使用linux进行应用开发。 看了一周文档今天终于上手写代码了，公司用到的技术以及要求和学校还是有挺大区别的，第一周非常懵，资料看的头疼，代码写的头晕，不过今天一下午还是写出来一个api接口，学到了不少东西，继续努力！ 提前来实习是因为公司实习工资和转正工资一样，还有公司的饭菜还挺好吃，每天只需8元，就可以吃自助三餐(贴个图)，感觉要吃胖，以...

查看6道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

拼多多笔试真简单..

热聊中

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

21959次浏览 366人参与

# 携程笔试 #

137875次浏览 827人参与

# 开放七大实习专项，百度暑期实习值得冲吗 #

16331次浏览 237人参与

# 拼多多集团-PDD笔试 #

33468次浏览 329人参与

# 找AI工作可以去哪些公司？ #

11585次浏览 431人参与

# 一人说一个提前实习的好处 #

118000次浏览 709人参与

# 厦门银行科技岗值不值得投 #

8567次浏览 192人参与

# 从事AI岗需要掌握哪些技术栈？ #

11048次浏览 513人参与

# 工作中，努力重要还是选择重要？ #

276020次浏览 2554人参与

# 你做过最难的笔试是哪家公司 #

39236次浏览 427人参与

# AI面会问哪些问题？ #

30864次浏览 746人参与

# 金三银四，你的春招进行到哪个阶段了？ #

22985次浏览 288人参与

# 中国电信笔试 #

32661次浏览 302人参与

# 哪些公司真双非友好？ #

70055次浏览 291人参与

# 投递几十家公司，到现在0offer，大家都一样吗 #

341766次浏览 2185人参与

# 秋招被挂春招仍然能投的公司 #

28710次浏览 232人参与

# 深信服求职进展汇总 #

262137次浏览 1816人参与

# bilibili求职进展汇总 #

187136次浏览 1086人参与

# 同bg的你秋招战况如何？ #

212315次浏览 1121人参与

# 如何准备秋招 #

78371次浏览 868人参与

# 校招谈薪一定要知道的事 #

39746次浏览 220人参与

# 应届生被毁约被毁意向了怎么办 #

63462次浏览 305人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务