大佬们问个问题
1.预训练的损失函数和微调的损失函数计算有什么不同?关注点有什么差异?
2.预训练后的模型获得了什么样的能力?微调后又获得了什么样能力?
昨天面试的时候被问到了😭
1.预训练的损失函数和微调的损失函数计算有什么不同?关注点有什么差异?
2.预训练后的模型获得了什么样的能力?微调后又获得了什么样能力?
昨天面试的时候被问到了😭
全部评论
预训练所有token位置都计算损失、SFT一般只有答案部分计算损失(提问部分label是-100)
预训练是为了吃知识、SFT为了指令遵循
这个预训练是指的视觉编码器的预训练,还是mllm的第一阶段预训练
预训练和微调的任务不同损失函数肯定会不同吧?预训练不都是自回归而微调可能会根据下游任务设计不同的损失函数
相关推荐
01-23 15:35
University of Edinburgh 嵌入式软件工程师 不知道怎么取名字_:嵌入式其实不是很好干的,要学的东西比较多的,你这个c stm32都是比较基础的了
点赞 评论 收藏
分享
01-03 14:09
成都信息工程大学 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享
