大模型算法美的日常实习一面

整体面试还是不错的,但是没后续了,不知道是哪里出了问题
1.预训练数据集是什么?规模有多大?数据清洗和tokenization怎么弄的?
2.Batchsize 训练长度,梯度累计怎么设定?
3.这个框架的位置编码?
4.训练过程损失函数怎么下降?有没有遇到梯度消失和梯度爆炸这种问题?
5.除了大模型有没有做过其他训练?看你本科也不是做的这个,有没有深度学习方面的训练?
6.Lora是自己搭的吗还是用的开源模型框架?Lora从o实现是指什么?
7.介绍一下dpo算法,dpo这里训练数据怎么来的?Dpo训练框架?
8.Sft模型和dpo之后模型的对比?Dpo和sft顺序?
9.Dpo训练过程中是否有不稳定?损失函数怎么表现?
10.有没有特定测试集去对比dpo之后比sft好?以及为什么
11.第二个项目数据怎么来的?给我一个例子,user assitent是啥,怎么组织多轮对话的历史以及损失怎么计算?怎么控制多轮对话轮次?
12.数据生成过程中遇见噪声怎么清洗过滤低质量数据?
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务