经纬恒润 数据开发

#发面经攒人品#
之前也面过这家公司,问题如下
1 先自我介绍一下自己
2 你来这家公司对于职级和薪资有啥要求吗,你觉得按照正常价你能接受吗
3 看你有用卡夫卡说一下kafka的一些组件,为啥kafka在大数据生态用的多,如何确保卡夫卡数据一致性,kafka挂机了怎么快速恢复
4 spark的宽窄依赖有了解吗 shuffle有了解吗,哪些算子会触发这个shuffle
5 spark3出了哪些新特性
6 看你做过财务的数据,你觉得财务数据需要注意啥,你是如何保证的,出了问题怎么快速修复
7 你这边有啥想找我了解的
全部评论
mark一下
点赞 回复 分享
发布于 09-22 18:33 北京

相关推荐

09-20 19:53
已编辑
广州商学院 数据采集
公司不大不小给我来说足够了,可惜好像很难转正。说是数据开发实际上是数据采集,能感觉到面试官对数据采集也不是很熟悉问的问题更倾向项目内容,名创优品的爬虫面试就是纯拷打了从基础到深入的技术问题。第一个:playwright跟selenium的区别,因为从一开始就用playwright我只知道一个异步,也回答了因为从一开始就使用了playwright框架所以对selenium也不太了解。第二个:谈谈反爬经历,我主要讲了youtube逆向以及cloudflare的绕过第三个:出现爬不到内容该如何排查,网页结构,ip池,cookies池,u-a头第四个:最难的项目,上份实习的监控系统youtube逆向以及cloudflare的绕过还有一个网页的逆向,最后是crawlab爬虫管理技术第五个:验证码,我实话实说没有接触验证码,因为通常拿playwright指纹绕过会更简单快捷,所以基本没有接触过验证码的绕过。第六个:大规模数据的保存,先用redis保存到一千到五千时再统一存入mysql第七个:mysql的运用,当时说了一个系统的mysql使用逻辑第八个:问我上份实习部署工作是是否为我做的,我说了是自己使用docker部署到服务器的第九个:ai技术如何运用到爬取,我说了使用openai可以很有效的解决爬虫对于数据模糊爬取难的情况,以及crawl4ai的工作原理第十个:爬虫的开发流程,我说主要是根据时间以及爬取的量,短时间可以用自动化工具,如果量大而且有时间则是用逆向加scrapy的协议爬虫,他说我太笼统了,于是我追加了crawlab的爬虫监控技术还有docker的多容器通信这些。后面就没了,面试官也介绍了一下他的团队,3点半左右线上面试结束,4点左右hr就在boss问我一会是否有时间电话沟通确认到岗时间还有薪资情况,说第二天就发offer了
查看10道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务