大佬们问个问题 1.预训练的损失函数和微调的损失函数计算有什么不同？关注点有什么

重庆范冰冰

2024-08-20 10:09 已编辑南京航空航天大学算法工程师发布于江苏

关注

大佬们问个问题
1.预训练的损失函数和微调的损失函数计算有什么不同？关注点有什么差异？
2.预训练后的模型获得了什么样的能力？微调后又获得了什么样能力？

昨天面试的时候被问到了😭

全部评论

推荐最新楼层

爱打瞌睡的柯基

门头沟学院自然语言处理

预训练所有token位置都计算损失、SFT一般只有答案部分计算损失（提问部分label是-100）预训练是为了吃知识、SFT为了指令遵循

7 回复分享

发布于 2024-08-20 16:37 广东

CovetousC

天津大学算法工程师

这个预训练是指的视觉编码器的预训练，还是mllm的第一阶段预训练

点赞回复分享

发布于 2024-09-08 11:53 天津

希望有好offer

北京工业大学算法工程师

预训练和微调的任务不同损失函数肯定会不同吧？预训练不都是自回归而微调可能会根据下游任务设计不同的损失函数

点赞回复分享

发布于 2024-08-20 11:18 北京

01-23 10:31

门头沟学院 Java

深夜刷题时，我羡慕了朋友圈的热闹

凌晨十二点，书桌前的台灯还亮着，屏幕上是没刷完的算法题，手边摊着画满标记的八股文书，嗓子因为反复背诵早已发哑。我又一次点开招聘软件，刷新了近一周面试过的五家公司对话框，依旧是一片沉寂——所有二面结束后，都没了下文。我不知道自己是挂了，还是在候选名单里排队。每次面试前都紧张到失眠，对着镜子练自我介绍，把可能被问的问题背得滚瓜烂熟，二面时和面试官聊得也算顺畅，可转身就石沉大海。我太想要一份保底工作了，哪怕薪资不算顶尖，至少能让我悬着的心落地，不用再在每一次面试前患得患失。手指无意识划到朋友圈，画风瞬间切换。有人晒着三亚的海滩日落，配文“年前最后一次出游”；有人发了和朋友的聚餐合照，笑声仿佛要从屏幕...

面试等了一周没回复，还有...

点赞评论收藏

01-23 15:35

University of Edinburgh 嵌入式软件工程师

绷不住了，找了一个月实习嵌入式还找不到

2本硕，在这一个下午真的绷不住了，浪费了太多时间，现在的技术栈还停在C语言和stm32上，找嵌入式的实习面试被拷打，找杭州的一个也找不到，真的心里难受，linux没学过，研二了开始慌了。

不知道怎么取名字_：嵌入式其实不是很好干的，要学的东西比较多的，你这个c stm32都是比较基础的了

点赞评论收藏

2025-12-26 00:04

马鞍山学院 Java

27寒假实习

目前0实习，感觉现在必须要整个实习了，希望各位大佬能给我一些建议，谢谢大家我是应该写新项目或者什么方向的 ，还是背八股刷力扣呢

java_xiaoj...：有个卖的**经常在复制黏贴他的评论，你们别看他的，我不说是谁。

你开始找寒假实习了吗？

点赞评论收藏

01-03 14:09

成都信息工程大学 Java

简历优化

我是大三，想找一个寒假实习，但是投了几天都没反应，请问是我的简历有什么可以优化的嘛，谢谢各位了！

天使姐：你的简历把你实际水平拉低了，要大改

投了多少份简历才上岸

点赞评论收藏

01-21 11:05

已编辑

南京邮电大学 Java

考研+转行-前端面经-华为od

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 除了Java，最推荐学什么技术？ #

1729次浏览 55人参与

# AI时代的工作 VS 传统时代的工作，有哪些不同？ #

2099次浏览 71人参与

# 你的landing期是如何度过的？ #

# 你觉得mentor喜欢什么样的实习生 #