26届钛动科技数据开发实习,线上一面完30分钟后就发offer了

公司不大不小给我来说足够了,可惜好像很难转正。说是数据开发实际上是数据采集,能感觉到面试官对数据采集也不是很熟悉问的问题更倾向项目内容,名创优品的爬虫面试就是纯拷打了从基础到深入的技术问题。
第一个:playwright跟selenium的区别,因为从一开始就用playwright我只知道一个异步,也回答了因为从一开始就使用了playwright框架所以对selenium也不太了解。
第二个:谈谈反爬经历,我主要讲了youtube逆向以及cloudflare的绕过
第三个:出现爬不到内容该如何排查,网页结构,ip池,cookies池,u-a头
第四个:最难的项目,上份实习的监控系统youtube逆向以及cloudflare的绕过还有一个网页的逆向,最后是crawlab爬虫管理技术
第五个:验证码,我实话实说没有接触验证码,因为通常拿playwright指纹绕过会更简单快捷,所以基本没有接触过验证码的绕过。
第六个:大规模数据的保存,先用redis保存到一千到五千时再统一存入mysql
第七个:mysql的运用,当时说了一个系统的mysql使用逻辑
第八个:问我上份实习部署工作是是否为我做的,我说了是自己使用docker部署到服务器的
第九个:ai技术如何运用到爬取,我说了使用openai可以很有效的解决爬虫对于数据模糊爬取难的情况,以及crawl4ai的工作原理
第十个:爬虫的开发流程,我说主要是根据时间以及爬取的量,短时间可以用自动化工具,如果量大而且有时间则是用逆向加scrapy的协议爬虫,他说我太笼统了,于是我追加了crawlab的爬虫监控技术还有docker的多容器通信这些。
后面就没了,面试官也介绍了一下他的团队,3点半左右线上面试结束,4点左右hr就在boss问我一会是否有时间电话沟通确认到岗时间还有薪资情况,说第二天就发offer了
全部评论
好像他们公司都没开26届的校招岗,都是实习
点赞 回复 分享
发布于 2025-10-10 15:30 广东

相关推荐

01-14 17:41
已编辑
门头沟学院 Java
一面60min左右自我介绍+项目全流程讲解 15min左右项目提问15min左右(只能回忆一部分)1.SSE与WebSocket的区别?2.构建出的知识库中的数据是如何处理?3.检索出来的结果不够精准,应该如何继续去优化?4.系统性能如何评估?用到的指标是什么?5.短期记忆和长期记忆如何做?6.系统越用越慢,如何反向调优?7.用户引导模型越狱问题如何解决?8.如何在最大程度上减少幻觉问题?场景题10min左右1.利用你学到的知识设计一个秒杀系统?2.除了上述讲的之外在秒杀前中后应该要做什么处理?3.不使用缓存,用数据库层接住全部流量,数据库这层要做什么处理?八股20min1.一条SQL的执行流程?2.MySQL8.0为什么要移除查询缓存?3.Innodb引擎核心模块有哪些?4.索引失效场景?5.Java内存模型如何划分?6.堆和栈的区别?7.JVM如何保证只加载一个类?8.SpringBoot的自动装配?9.SpringBoot的启动流程?二面40min左右项目提问15min左右1.为什么要根据系统重新写一个ID生成器?如何解决数据倾斜的问题?扩容碰到的问题如何解决?2.消息推送的完整链路,已经如何设计高可用和高可靠两个模式?3.10w条消息推送,多久可以推送完?4.如果是100w,10000w数据,系统是否可以抗住?5.有突发紧急任务进来,应该如何处理?6.令牌桶算法?7.在处理哪些场景上用到消息队列?8.rocketmq和kafka的选型?场景题目25min左右1.以京东秒杀商品为背景,秒杀成功之后进行支付,支付成功后要去调我们的扣费接口。但这个过程中也有可能会数据丢失,比如说用户支付完了之后,扣费没调成功,或者其他问题,导致了我们那个订单的状态没更新好。用户未支付,到15 分钟后库存又被还原掉了。针对这个完整的链路,讲一下关键节点的技术要点。2.把支付的一些参数,包括订单号等信息,按照第三方支付平台的要求拼起来加密,产生一个支付流水号。用户支付之后,但是此时和第三方系统通讯的链路断了,如何解决用户付了钱,订单没更新的问题。3.系统没有有随机3%左右的接口访问的时候超时。比较随机,而且分布的接口又不是在同一个接口。像这样的一个生产问问题如何去排查?三面HR面30min(常规问题不做记录)
点赞 评论 收藏
分享
2025-12-31 17:27
南京理工大学 Java
Kssisjjsuz:9月投的时候爱搭不理,这会被哥穿了开始发面试
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务