智谱大模型agent一面

项目深挖
1. 训练参数设置&资源配置细节
2. DPO训练loss的直观含义(别讲公式!要大白话)
3. 为啥不直接SFT,非要搞DPO?(核心是对齐效果差异)
4. 负样本构造逻辑
追问:长链路GUI下正负样本长度不一有啥影响?原因是啥?
5. 为啥选GRPO?对比过其他算法吗?
6. tool response需要loss mask吗?理由是啥?
7. 训练任务中mcp构造数量+具体case
8. 训了几版模型?印象最深的bad case是啥?

八股问答
1. 看过AUTOGLM论文吗?其他大模型论文呢?印象最深的点是啥?
2. 给定模型层数+隐藏层维度,估算参数量级+解释计算逻辑
3. 同参数同序列长度,计算kvcache大小

手撕代码
流式输入输出处理规则(划重点!优先级很关键)
1. 被<think></think>包裹的字符直接隐藏(优先级最高)
2. mcp调用只输出instruction里的内容
3. 其余内容正常输出
全部评论

相关推荐

01-30 09:45
燕山大学 Java
喵_coding:这种直接跑就完事了 哪有毕业了才签合同 任何offer和三方都没有的
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务