智谱大模型agent算法面经 好细啊

发发面经攒攒人品
项目深挖
1. 训练参数设置&资源配置细节
2. DPO训练loss的直观含义
3. 为啥不直接SFT,非要搞DPO
4. 负样本构造逻辑
追问:长链路GUI下正负样本长度不一有啥影响?原因是啥?
5. 为啥选GRPO?对比过其他算法吗?
6. tool response需要loss mask吗?理由是啥?
7. 训练任务中mcp构造数量+具体case
8. 训了几版模型?印象最深的bad case是啥?
八股问答
1. 看过AUTOGLM论文吗?其他大模型论文呢?印象最深的点是啥?
2. 给定模型层数+隐藏层维度,估算参数量级+解释计算逻辑
3. 同参数同序列长度,计算kvcache大小
手撕代码
流式输入输出处理规则
1. 被包裹的字符直接隐藏
2. mcp调用只输出instruction里的内容
全部评论
借楼,谢谢!!帮转求star-小红书视频剪辑Agent开源项目。FireRed-OpenStoryline github开源链接: https://github.com/FireRedTeam/FireRed-OpenStoryline/tree/main RedTech公众号宣传推文: https://mp.weixin.qq.com/s/tr-SEjZp6fNVS6IrjIbCRg
点赞 回复 分享
发布于 02-14 14:55 福建
这个问的太细了吧
点赞 回复 分享
发布于 02-14 10:51 江西

相关推荐

评论
点赞
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务