智谱 GLM预训练 二面

询问项目:
预训练数据清洗流程
爬虫数据来源
数据挖掘流程
继续预训练策略选择
评测集是怎么合成的
数据配比对模型能力的提升
大模型与小模型之间的scaling law
图文模型怎么收集数据,怎么制作评测集,怎么数据增强

八股问了
1F1B的流程,解决了dreampipe什么问题
microbatch的意义
空泡时间怎么算
zero123的区别
如果是3D并行zero最多开多少,如果开到2会怎么样

他们好像很想要提前实习,从一面到二面一直在提。

一天后约HR面。
#牛客创作赏金赛#
全部评论
跟并行训练杠上了啊
1 回复 分享
发布于 2024-09-20 13:46 北京
想问一下这个应该怎么答呀,谢谢:如果是3D并行zero最多开多少,如果开到2会怎么样
点赞 回复 分享
发布于 2024-10-03 18:05 日本
请问一面和二面之间相差几天?面试不满意的话会有通知吗?谢谢
点赞 回复 分享
发布于 2024-09-25 12:57 美国

相关推荐

感觉今年拿到大厂实习offer的人很多,光是身边同学室友都是好几个offer。由此可见,秋招得有多卷
小浪_Coding:必须卷的起飞, 应该比25更卷一点, 25已经是哀声一片了, 26会更难一点, 现在还有`很多25未找到的
点赞 评论 收藏
分享
水墨不写bug:疑似没有上过大学
点赞 评论 收藏
分享
评论
8
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务