线下群面:五分钟读题,然后每人简单自我介绍+说出对题目的答案,然后讨论20分钟,最后5分钟派一个人总结。题目:(2选1)1、如何构建数据中台?2、设计一个智能家居,应该有哪些功能?用什么技术实现这些功能?测评:性格测试+图形推理+资料分析二面:1、自我介绍2、详细介绍一下项目3、实习的数据框架和项目的数据框架有什么区别吗?4、数据采集还了解其他工具或架构吗?5、数据加工处理还了解其他工具或架构吗?6、数据对外提供服务还了解哪些工具?7、介绍一下实习中大数据开发的流程和规范8、编译原理、数据库原理有了解过吗9、做题,说思路就好:(不用借助其他平台,想思路就好)上百T数据,里面有手机号,有5台机器,找出手机号出现频率最高的10个。自己的思路:将数据分为5份,让每一台数据处理一份,分别对数据进行排序,取出出现频率前10的手机号,最后把5台机器的结果汇总起来再进行排序,取出前10频率的手机号。面试官:那每台机器怎么取出频率最高的10个手机号?我:HashMap存储处理过的数据,key存放手机号,value存放出现次数,然后用小顶堆存放HashMap的数据,取10次堆顶的数据。面试官:每台机器取前10,加起来再取前10,但每天机器的前10不一定是准确的,即可能出现同一个手机号出现在不同的机器,怎么处理?(一开始理解错了问题)我:扩大前几的范围,前20、前50面试官:这个方法不解决问题,参考MR的计算原理,借鉴一下有没办法解决?我:(根据MR处理数据的流程说了一遍)面试官:了解Shuffle吗?我:了解,数据分区......面试官:对,就是Hash分区,先让相同的手机号放到同一个机器上,后面那套就通了,这个手机号就是这台机器的前10。大数据——海量数据处理的基本方法总结:https://blog.csdn.net/hong2511/article/details/80842704(数据进行Hash分区,分为5个文件,分别发给5台机器处理。每台机器用HashMap统计词频,然后用第一个文件建立一个小顶堆,只存频率最高的10个,然后第二个文件继续存入小顶堆。最后小顶堆里存在的10个号码就是最高频的)10、反问部门规模:数据业务中心,200多人,负责所有的数据建设和管理技术栈:需要用到什么就用什么,没有特定的技术栈,不限于某种技术候选人特质:没有特别倾向,对基础能力的掌握情况,对做过东西的了解程度,不仅仅是完成,做完后对背后的东西有比较好的理解。二面挂,个人分析是场景题没有做出来
点赞 3
评论 0
全部评论

相关推荐

02-07 12:06
已编辑
华侨大学 测试开发
最近看到很多 92 的,甚至是硕士,开始往测开赛道卷,说实话有点看不懂。先把话说清楚,大厂里的测开,绝大多数时间干的还是测试的活,只是写点自动化脚本、维护测试平台、接接流水线,真正像开发一样做系统、做架构、做核心平台的测开少得可怜,基本都集中在核心提效组,而且人很少,外面进去的大概率轮不到你,我想真正干过人都清楚。很多人被洗脑了,以为测开也是开,和后端差不多,只是更简单、更轻松、还高薪。现实情况是,测开和开发的职业路径完全不一样。开发的核心是业务和系统能力,测开的核心是稳定性和覆盖率,前者是往上走,后者天花板非常明显。你可以见到很多开发转测开,但你很少见到干了几年测开还能顺利转回开发的。更现实一点说,92 的高学历如果拿来做测开,大部分时间就是在做重复性很强的杂活,这种工作对个人能力的放大效应非常弱。三年下来,你和一个双非的,甚至本科的测开差距不会太大,但你和同龄的后端、平台开发差距会非常明显。这不是努不努力的问题,是赛道问题。所谓测开简单高薪,本质上是把极少数核心测开的上限,当成了整个岗位的常态来宣传。那些工资高、技术强的测开,本身就是开发水平,只是挂了个测开的名。普通人进去,99% 做的都是项目兜底型工作,而不是你想象中的平台开发。测开不是不能做,但它绝对不是开发的平替,也不是性价比最优解。如果你是真的不想做开发,追求稳定,那测开没问题。但如果你只是觉得测开比后端容易,还能进大厂,那我劝你冷静一点,这只是在用短期安全感换长期天花板。有92的学历,如果你连测开这些重复性工作都能心甘情愿接受,那你把时间精力用在真正的开发、系统、业务深度上,回报大概率比卷测开要高得多。想清楚再下场,别被岗位名和话术带偏了,就算去个前端客户端也是随便占坑的,测开是一个坑位很少赛道,反而大面积学历下放,不用想也能知道会是什么结果,我想各位在JAVA那里已经看到了
小浪_Coding:工作只是谋生的手段 而不是相互比较和歧视
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务