大模型算法美的日常实习一面
整体面试还是不错的,但是没后续了,不知道是哪里出了问题
1.预训练数据集是什么?规模有多大?数据清洗和tokenization怎么弄的?
2.Batchsize 训练长度,梯度累计怎么设定?
3.这个框架的位置编码?
4.训练过程损失函数怎么下降?有没有遇到梯度消失和梯度爆炸这种问题?
5.除了大模型有没有做过其他训练?看你本科也不是做的这个,有没有深度学习方面的训练?
6.Lora是自己搭的吗还是用的开源模型框架?Lora从o实现是指什么?
7.介绍一下dpo算法,dpo这里训练数据怎么来的?Dpo训练框架?
8.Sft模型和dpo之后模型的对比?Dpo和sft顺序?
9.Dpo训练过程中是否有不稳定?损失函数怎么表现?
10.有没有特定测试集去对比dpo之后比sft好?以及为什么
11.第二个项目数据怎么来的?给我一个例子,user assitent是啥,怎么组织多轮对话的历史以及损失怎么计算?怎么控制多轮对话轮次?
12.数据生成过程中遇见噪声怎么清洗过滤低质量数据?
1.预训练数据集是什么?规模有多大?数据清洗和tokenization怎么弄的?
2.Batchsize 训练长度,梯度累计怎么设定?
3.这个框架的位置编码?
4.训练过程损失函数怎么下降?有没有遇到梯度消失和梯度爆炸这种问题?
5.除了大模型有没有做过其他训练?看你本科也不是做的这个,有没有深度学习方面的训练?
6.Lora是自己搭的吗还是用的开源模型框架?Lora从o实现是指什么?
7.介绍一下dpo算法,dpo这里训练数据怎么来的?Dpo训练框架?
8.Sft模型和dpo之后模型的对比?Dpo和sft顺序?
9.Dpo训练过程中是否有不稳定?损失函数怎么表现?
10.有没有特定测试集去对比dpo之后比sft好?以及为什么
11.第二个项目数据怎么来的?给我一个例子,user assitent是啥,怎么组织多轮对话的历史以及损失怎么计算?怎么控制多轮对话轮次?
12.数据生成过程中遇见噪声怎么清洗过滤低质量数据?
全部评论
相关推荐
查看3道真题和解析