小米大数据开发3.29一面冰经

我是学数学的2024应届,本科阶段有选过大数据的专业选修课,但是编程语言真的不太会,跟科班出身的计院同学没法比,今年数分岗又卷到爆炸,双选会问了几个公司都说数分岗爆满(快手中移信息技术中心),只好一并找找其他方向,上周笔试以为铁挂了就没怎么准备,结果昨天晚上22点发今天的一面邀,一个晚上加上午恶补大数据知识。面试官非常和蔼:
问项目:
大数据技术实验做了什么东西?是为了实现什么?(本科课程里的实验)有学到什么东西吗?(linux操作经验和Hadoop架构搭建)你对Hadoop的理解到什么程度?
机器学习算法实验用了什么算法?(朴素贝叶斯和随机森林)这两个算法分别是用来干什么的?回归还是分类?你用的是什么数据集?(Python sklearn自带数据集)这两个的具体原理知道吗?有监督学习和无监督学习是什么?区别在哪里?你用的这两种是有监督还是无监督?
数据库设计用什么实现的?(MS Access)主要用什么语言?你说SQL比较熟练,那select where having执行顺序是什么样的?
其余记得不太完整了,有印象的有:MR里的shuffle你知道吗?有什么操作?你知道事务吗?事务的四个性质知道吗?叙述一下?
重磅:你本科是数学,那你有学过计组和网络吗?(没有,大一的时候有学习计基,但是培养方案比重不大所以学的不深…汗流浃背…)
算法题:链表反转(怕我不知道链表是什么问了我一下知不知道),我问我只有C语言比较熟练可以用C写吗(可以,用你熟悉的语言写)C语言的结构体和指针对我来说还是很复杂的,10分钟左右
(我还差主函数打印没写完)ok差不多了(您刚刚不是说还有一道SQL)没事,不用了我看你这个思路还是可以的,时间快到了SQL就不用你做了
反问:后续流程大概要多久?(需要整合所有人的表现才能评估,要一段时间)我是数学专业的话想往大数据开发方向发展您觉得我还应该在哪里深入学习?(要多深入学习计组,网络等等计算机专业的课程,搞大数据开发的这些不能不熟练,另外你的机器学习算法的理解不可以流于表面,重点不仅要放在懂得用,编码这块,原理也要深入研究。对了你这些关于大数据和机器学习的东西是自学的还是专业课程学的)哦哦,这些是专业选修课,有计院的老师给我们上的。后面我自己有点研究兴趣所以自己也有学习。
结束,现在就是等挂…算是积攒了面试经验吧,春招刚开始找工作处女面给了小米。
全部评论
牛牛牛 北邮✌ 就算是数学专业 也能进大数据开发面试
1 回复 分享
发布于 2024-04-08 10:41 广东
加油兄弟,俺也挂啥了
点赞 回复 分享
发布于 2024-04-07 14:47 北京
为什么大数据开发要学计算机网络,没搞懂
点赞 回复 分享
发布于 2024-03-30 08:19 英国

相关推荐

1.WordCount 具体是怎么跑的?比如怎么分片、map 阶段做了啥、shuffle 是咋回事、reduce 最后怎么汇总的2.MapReduce和Spark 到底差在哪儿?适用场景这些都得对比着说3.Spark 提交任务时,Client模式和集群模式有啥不一样?比如 Driver 在哪跑、日志在陖瞎圈看、适合啥场景4.同一条 SQL,为啥 SparkSQL 跑起来比HiveSQL 快?得从执行引擎、优化器这些底层说说原因5.自定义 UDF 怎么实现?比如在 Hive 或Spark 里,具体步骤是啥,有没有踩过坑6.设计 HBase 表得注意啥?rowkey 怎么设计才合理、列族要不要分、版本数怎么设,这些睪腘狐旨を曽斷纰可能问到7.HBase 里的 HLog 是干嘛的?跟数据持久化、故障恢复有关系吗8.都是存在 HDFS 上的数据,为啥 HBase 能支持在线实时查询,Hive 就不行?底层存储结构不一样在哪9.用 SparkSQL 操作 Hive 数据时,有没有縈区堠浓ゴ壮攥到过兼容性问题?比如某些函数不支持、数据格式读不对之类的,怎么解决的10.Spark Streaming、Storm、Flink 这几个流处理框架,区别在哪?各自的优缺点和适用场景得搞明白场景题:11.数据量特别大,要用三个 Map 和一个Reduce 来做 Top10,哪种方法效率最高?得考虑怎么减少数据传输、避免倾斜
查看11道真题和解析
点赞 评论 收藏
分享
评论
8
22
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务