百度数据研发暑假实习现场一面

1.讲一下Shuffle过程,reduce如何知道去拉取哪些map的数据
2.map的数量是怎么确定的
3.为什么切片的大小要尽量和物理块大小保持一致,我说了句寻址时间,直接问我磁盘如何寻址的,泪目,直接说不会
4.做道题,给一个文本文件,里面有一万行,每一行有单词,单词有重复的,统计重复次数的前三名,用shell写,写不出来,让我Java,我用了哈希表和大顶堆,说我空间复杂度太大,有没有优化的方式,我说不会
5.数仓是干嘛的,和普通业务数据库有什么不一样
6.olap和oltp知道么,有什么区别
7.说一下数据仓库的五层都是干嘛的,有没有解析的过程
8.窗口函数知道么,讲一讲你知道的窗口函数,有没有自己写过udf
9.mysql都有哪些引擎,他们的区别是啥,mysql的锁知道么,回答说不知道,然后又问我Java多线程里面都有哪些锁,我就讲了sychronized,volatile,cas锁
#实习##百度##数据开发工程师##面经#
全部评论
说一下,切片大小和物理块保持一样的原因:如果分片跨了两个数据块 那肯定有一个块是放到另外一台机器上的,存储在两个节点上需要网络io加载数据,不能做到本地化。
1 回复 分享
发布于 2021-04-16 15:43
百度数据开发在北京还是上海
点赞 回复 分享
发布于 2021-04-17 09:56
第四道使用归并排序
点赞 回复 分享
发布于 2021-04-16 20:03

相关推荐

不愿透露姓名的神秘牛友
06-26 14:50
人力小鱼姐:有后面墨迹那两句的时间问题早回答完了
点赞 评论 收藏
分享
05-29 09:02
门头沟学院 Java
点赞 评论 收藏
分享
下北澤大天使:你是我见过最美的牛客女孩😍
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
06-30 18:19
点赞 评论 收藏
分享
评论
3
16
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务