网易大数据研发实习面经

#23届找工作求助阵地#  #实习#  #网易智企#

一轮面试:
1.比赛相关(自动化敏感信息提取项目中:数据提取、清洗和转换是怎么做的?数据量大概有多少?最终的训练模型的数据结构是怎么样?有没有涉及到分布式集群来训练模型?)
2.课题相关(刚才说这个项目不是用到多卡多去存储,应该是相当于HDFS文件上面对吧?有没有用到它里面的一些计算的一些引擎,那你存储它的用它的组件的目的是什么?Hadoop的集群架构是单机还是分布式的?是自主搭建的吗?)(因为分布式集群我回答的比赛没有用,课题项目用了,但是回答的不好,然后引导面试官转换到正在做的离线数仓项目)
3.离线数仓项目(介绍一下Hadoop架构的组件?简单介绍map reduce和Spark它们之间有什么区别,哪个性能方面更好以及适用于哪一些场景?)
4.技能(flume的应用场景?如何实现的数据采集?离线数仓整个体系的分层?从原始数据层ODS到汇总数据仓DWD再到应用数据层中间的数据处理是怎么做的?如果各层时使用的是hive sql进行数据处理的,那么应该有类似于ETL任务调度,那这种调度在终端中是怎么实现的?所以都是手动写好脚本定时来执行?有没有用过spark做一些处理?全量和增量是怎么做的?客户端和服务端的日志采集最终是写到Kafka,那么卡夫卡再到Hadoop的中间过程是怎么实现的?介绍一下Kafka的集群架构?BI工具在业务上又是干嘛用的?mqsql数据库的索引机制?索引是基于什么实现的?什么样的数据会放到mysql里面?MySQL的事务和基本原则?MySQL的默认事务隔离级别?不同的隔离级别会出现哪一些问题,简单描述一下?为什么会造成数据的脏读和幻读?Java的GVM机制?Spring boot机制?shell中的vim如何退出,退出会保存吗?怎么查一个CPU占用较高的线程?)
5.其它(简历上的项目,有没有什么遇到特别难的难点,简单分享一个)
6.反问(当时脑子卡壳了,只问了实习生干的什么,应该问下面试表现和需要改进的地方)
全部评论
二面凉了上周五问的咋全是算法啊?我真的哭死(自我介绍过后就是手撕算法极大联通图,我真的一点儿也没准备)
点赞 回复 分享
发布于 2023-12-26 17:17 广东
研二吗 这找的实习是春季吗 年后去上班的那种吗?
点赞 回复 分享
发布于 2023-12-23 17:37 北京
佬是硕吗
点赞 回复 分享
发布于 2023-12-21 22:44 黑龙江
这实习问这么多吗😅
点赞 回复 分享
发布于 2023-12-21 20:39 北京

相关推荐

昨天 12:57
已编辑
哈尔滨工程大学 C++
part1:自我介绍part2:算法(1)求斐波那契数列,动态规划,时间空间复杂度,有没有复杂度更低的实现?G(只想到的了dp)(2)二叉树遍历的方法?中序遍历的方法:递归(时间空间复杂度),隐式栈迭代(时间空间复杂度),还有什么?G(3)了解回溯算法吗?讲一下回溯算法求排列;part3:八股(1)了解红黑树吗?讲一下底层实现原理;只记得颜色+翻转,map用这个管理键值对;追问还有什么?G(2)了解平衡二叉树和二叉搜索树吗?主要区别是什么?(3)讲一下线程进程间的区别,通信模式,各种通讯模式的实现?G;(消息队列没答上来)你说你共享内存和套接字用的多,讲一下实现的步骤?(4)说一下Cpp常用的容器算法迭代器,属于是哪个cpp版本新增的?哪些是线程安全的?G(5)CPP智能指针在用过吗?项目A,怎么实现的?为什么这样用?需要注意什么?(6)讲一下TCP,UDP和OSI七层模型;(7)由UDP套接字引申出项目B,问细节,为什么不用TCP;(8)了解TVL吗?G(9)讲一下http和https,https的几个状态码;part4:项目讲一下你最近比较熟悉的一个项目,项目A中的里面的线程池是基于什么实现的?有没有看过std线程池源码?G;其他的cpp源码呢?涉及AI的部分,百度实习,了解的神经网络,卷积操作的本质,学习率和梯度下降指的是什么?时序网络的关键是什么?你的毕设属于CV NLP的哪一类?你的项目中的特征提取模块的选型是怎么确定的?你在这中间遇到的最大的困难是什么?讲一下团队项目,项目C;问的不难但是好多没答全
查看17道真题和解析
点赞 评论 收藏
分享
评论
2
28
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务