字节 业务中台 算法实习生面经

Boss投的,第二天就约面试了。
一面 3月14日 60min

1、自我介绍
2、学校做cv,为什么实习找nlp
3、聊项目:
  (1)预训练数据怎么构造的,sft数据格式。
  (2)为什么预训练数据要加维基百科的语料库。     
  (3)预训练数据好像加在sft阶段也可以,为什么还要进行预训练。
  (4)dpo在项目中主要想解决什么问题?grpo你想解决什么问题?
5、算法题:最大子数组和

隔天周六3月15晚上发感谢信了。

感觉聊的还行,项目深度这块应该回答的让面试官不满意。

#字节求职进展汇总#  #面经#  #算法工程师#  #大模型算法工程师#
全部评论
佬是有一段熟悉经历了吗
点赞 回复 分享
发布于 03-18 00:46 辽宁
base深圳吗
点赞 回复 分享
发布于 03-17 00:37 江苏
Boss投递效率真高
点赞 回复 分享
发布于 03-16 17:54 陕西省

相关推荐

05-25 22:01
已编辑
东北大学 Java
字节搜索二面挂当天被捞1、自我介绍2、你提到了用户的关注与取关,你用户关系服务是怎么设计的?(定义了关注表与粉丝表,两个表内容一致)3、你怎么保证两个表内容一致的?(目前是通过事务保证的,后面其实还可以通过订阅 binlog 伪从来保证一致性)3、如果是大 V 的情况,你有考虑到吗,做了哪些处理应对这种高并发(Redis 缓存+二级缓存,冷热数据分离)4、分布式 ID 你都用来生成什么 ID 的?(笔记 ID,用户 ID,用户 ID 用的号段模式,笔记 ID 考虑到雪花算法自带的时间戳可以实现冷热数据分离,发布久远的笔记不缓存在 redis,后由于点赞系统采用咆哮位图高效判断,但咆哮位图基本只能存储 32 位,遂也改为号段模式生成,生成效率基本没差多少)5、那你说说点赞系统怎么设计的?为什么改为咆哮位图了?(先是采用 Set 数据结构判断,后因为满足高并发需求,Set 模式占用内存太多,又改用布隆过滤器实现,大大降低内存占用。但布隆过滤器在判断存在时存在误判,需要从数据库进行二次校验。后改用咆哮位图,既能高效判断点赞与否,内存占用也大大降低)6、那你讲一下咆哮位图的机制,为什么有你说的这些优点?7、MySQL 了解吧,你讲一下 MySQL 的索引(一顿吟唱)8、说一下聚簇索引和非聚簇索引的区别9、联合索引再说一下,如何定义联合索引最好?(设计成覆盖索引)10、联合索引的顺序重要吗?(顺便再说一下索引下推)11、算法1:二叉树展开为链表12、算法2:根据层序遍历建树反问
字节跳动一面1188人在聊 查看13道真题和解析
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
05-23 11:32
已编辑
招银网络科技(深圳)有限公 后端开发(部门要进去分配 n × 12 + 8w 本科985
点赞 评论 收藏
分享
评论
3
7
分享

创作者周榜

更多
牛客网
牛客企业服务