大佬们问个问题 1.预训练的损失函数和微调的损失函数计算有什么不同？关注点有什么

重庆范冰冰

2024-08-20 10:09 已编辑南京航空航天大学算法工程师发布于江苏

关注

大佬们问个问题
1.预训练的损失函数和微调的损失函数计算有什么不同？关注点有什么差异？
2.预训练后的模型获得了什么样的能力？微调后又获得了什么样能力？

昨天面试的时候被问到了😭

全部评论

推荐最新楼层

爱打瞌睡的柯基

门头沟学院自然语言处理

预训练所有token位置都计算损失、SFT一般只有答案部分计算损失（提问部分label是-100）预训练是为了吃知识、SFT为了指令遵循

8 回复分享

发布于 2024-08-20 16:37 广东

CovetousC

天津大学算法工程师

这个预训练是指的视觉编码器的预训练，还是mllm的第一阶段预训练

点赞回复分享

发布于 2024-09-08 11:53 天津

希望有好offer

北京工业大学算法工程师

预训练和微调的任务不同损失函数肯定会不同吧？预训练不都是自回归而微调可能会根据下游任务设计不同的损失函数

点赞回复分享

发布于 2024-08-20 11:18 北京

03-12 10:01

广西大学算法工程师

AI-Agent 面试题汇总 - 大模型微调面

1. 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？这个问题不能只看模型参数量，还得把训练时真正占显存的几部分一起算进去。全参数微调时，显存通常会被下面这些东西吃掉：模型参数本身梯度优化器状态前向传播保存的激活值CUDA 运行时和框架缓存如果用的是 AdamW 这类优化器，除了参数之外，还要额外维护一阶矩和二阶矩，所以训练显存会明显高于推理显存。一个比较粗糙但实用的经验是：全参数微调的显存，往往是模型权重显存的 6 到 12 倍左右，具体还得看序列长度、batch size、是否开 gradient checkpointing、是否做 ZeRO/FSDP 分片。拿 7B 模型举例，F...

AI-Agent面试实战...

点赞评论收藏

02-28 08:30

门头沟学院机器学习

字节AI算法二面好难啊

发点面经攒攒人品1、你在线上或离线训练时，过拟合怎么处理？直接说你最有效的三个方法和拿到的收益。2、把 BN 讲透：原理是什么；训练期和推理期用的统计量有何不同；跟 LN、GN 比，分别什么时候用、怎么取舍。3、分类和回归你最常用哪些损失？你更偏好哪几个，为什么（从鲁棒性、梯度、数值稳定性上谈）。4、L1 和 L2 正则你怎么选？它们各自的效果与风险是什么，工程里你是怎么权衡的。5、二元和多分类的交叉熵你怎么写？在工程里你怎么做数值稳定实现。6、AUC 到底在统计上代表什么？你怎么计算它，在线上业务里你如何解释“这次 AUC 提升”的含义。7、你做 CTR/CVR/CTCVR 联合建模时，ESMM/ESMM2 是怎么推导与工程落地的？线上到底带来了什么收益。8、Transformer 里因果注意力的 Q/K/V 各从哪来？Mask 具体怎么实现。9、Scaled Dot‑Product Attention 为啥要除以 √dk？如果不除会出什么数值或训练问题。10、把 Transformer / Decoder‑only 的整体结构过一遍，各个组件分别在干什么，有哪些常见变体。11、位置编码这条线你怎么选：绝对 PE、相对 PE、RoPE 各自的思路、优势和局限，结合你的项目谈取舍。12、长上下文怎么搞？Rope scaling、Position Interpolation、KV Cache 管理、检索增强、窗口注意力，你的实战方案是什么。13、KV Cache 在训练和推理中的差异是什么？它的加速价值有多大，吞吐与延迟你是如何权衡的，vLLM/paged‑attention 需要注意什么。14、PEFT 方案里（LoRA/QLoRA/Prefix/Prompt‑Tuning/Adapter）你怎么选？说说稳定训练的经验。15、SFT 和对齐（RLHF/DPO/IPO/PPO）原理差在哪？在不同数据与资源条件下，你怎么选路线。16、RAG 系统你怎么设计？切分、索引、召回/重排、压缩/融合、兜底策略怎么串。17、提示词工程你是怎么搞的？System/角色/约束/分步指令怎么写，如何防越狱

查看17道真题和解析

点赞评论收藏

03-16 18:11

已编辑

黑龙江大学 Java

面试被问到“记忆机制”？一个开源项目帮你理解！

最近 Claude Code 很火，但用过的同学都知道一个痛点：新开对话啥都不记得，上次说好的代码风格、踩过的坑、定好的方案——重新来过。而且在目前的面试中，面试官已经不仅仅询问你Skills，MCP，他们更看重你对于实际工程中的痛点有没有深刻的认识。最近的一场面试中，面试官就深入的与我讨论了记忆机制的落地场景，在什么时候应该用什么，然后我忽然发现，mem0并不是最好的解法，至少它绝不是唯一的解法。考虑到这儿，索性就自己写了一个开源项目，既是增强简历的竞争力，也是希望在ai浪潮中做出自己的贡献。项目是什么CapsuleMemory —— 给 AI 系统加「胶囊式记忆」的 Python 框架。G...

AI求职实录

点赞评论收藏

03-18 04:50

门头沟学院推荐算法

日常实习微博大模型算法面经

攒攒人品～ 1.讲讲lora微调的原理2.lora微调在代码中时如何实现的3.在微调时参数是如何设的，为什么要这样设，有什么经验吗4.在微调时显存占用大概是多少，如何计算;计算量呢5.你还知道哪些其他微调方式吗，为什么选择lora微调

查看5道真题和解析

点赞评论收藏

03-16 09:48

广西大学算法工程师

顺丰大模型开发一面

1、LoRA 微调的原理LoRA 的核心思想是不直接更新预训练模型里的原始大权重，而是在某些线性层旁边增加一个低秩更新分支，用低秩矩阵去近似权重增量。假设原始权重是 W∈Rd×k，全量微调时直接学习ΔW，LoRA 则把它写成：ΔW=BA其中A∈Rr×k，B∈Rd×r ,，(r) 是远小于 (d) 和 (k) 的秩。这样前向计算就变成：h=Wx+ΔWx=Wx+BAx实际里通常还会加缩放项：这样做的本质是认为很多下游任务对大模型权重的更新其实存在低秩结构，不需要真的去学习一个完整的大矩阵。LoRA 的优点是可训练参数少、显存占用低、训练快，而且原模型参数冻结，方便多任务切换和权重管理。2、LoRA...

查看11道真题和解析

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

# 你和你的mentor相处模式是__ #