大佬们问个问题
1.预训练的损失函数和微调的损失函数计算有什么不同?关注点有什么差异?
2.预训练后的模型获得了什么样的能力?微调后又获得了什么样能力?

昨天面试的时候被问到了😭
全部评论
预训练所有token位置都计算损失、SFT一般只有答案部分计算损失(提问部分label是-100) 预训练是为了吃知识、SFT为了指令遵循
7 回复 分享
发布于 2024-08-20 16:37 广东
这个预训练是指的视觉编码器的预训练,还是mllm的第一阶段预训练
点赞 回复 分享
发布于 2024-09-08 11:53 天津
预训练和微调的任务不同损失函数肯定会不同吧?预训练不都是自回归而微调可能会根据下游任务设计不同的损失函数
点赞 回复 分享
发布于 2024-08-20 11:18 北京

相关推荐

08-08 16:33
唐山学院 Java
职场水母:首先,简历太长,对于实习和应届找工作,hr一眼扫的是学历,技术看实习,你写的技术栈字太多了,尽量用一句话概括不用写那么详细,技术面的时候会问的,而且技术栈都会在实习或者项目里体现,你要做的是,把你的简历浓缩为一页,删除没用的东西,比如实践经历,自我评价,这些纯废话,没用,专业技能写的太离谱,你真的熟练掌握了吗,建议都写熟悉,找工作和写论文不一样,追求的是干练和实用,把实习经历和项目提前,把掌握的技术栈写到最后,然后去找实习,
点赞 评论 收藏
分享
DKS233:(1)专业技能:Java8也太旧了,最少也要了解到JDK17吧,可以参考现在SpringBoot支持的Java最低版本,熟悉mysql基本理论具体指啥,是锁这种具体原理还是分库分表这些业务场景,spring这些专业词汇,大小写要写对(全篇简历都有这个问题,显得不严谨),熟悉使用框架进行业务开发就别写了,如果要写,起码要写到框架原理部分吧,比如aop,启动原理什么的,springcloud具体指哪些模块呢,写清楚,网关还是鉴权还是什么,“改造”没必要写吧,你直接说用springcloud开发的不就行了(2)项目经历:首先格式就有大问题,时间怎么能换行呢,调整一下,响应速度那个,如果指的是将部分数据从其他数据库转到redis的提升就别写了,因为这个不算难点,redis可以写写分布式这些,比如容灾怎么实现的,数据库同步怎么做的
点赞 评论 收藏
分享
评论
8
16
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务