蚂蚁大模型应用 一面

1. PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?
2. 为什么有了reward model还需要critic model?critic model作用是什么?
3. 交叉熵和kl散度的联系和区别?PPO的kl散度可以改成交叉熵吗?分类任务可以用KL散度吗?
4. GRPO的kl散度和PPO的kl散度区别?K1 K2 K3估计区别?
5. rollout数量 batchsize数量和计算资源(卡的数量)有什么关系?线性?非线性?
6. 真实采样数量一定等于rollout数量吗?
7. 提到了拒绝采样,详细讲一下
8. vLLM框架是怎么做推理加速的?
全部评论
怎么觉得偏算法啊
点赞 回复 分享
发布于 2025-11-09 11:30 北京
贴个招聘社招校招实习,欢迎优秀的你。
点赞 回复 分享
发布于 2025-10-14 11:49 上海
佬bg啥样论文实习都有吗
点赞 回复 分享
发布于 2025-10-13 12:33 河北

相关推荐

03-28 23:32
门头沟学院 Java
攒人品中! 问八股:1.介绍一下transformer架构,它解决了rnn和cnn哪些无法解决的问题?2.怎么理解词与词之间距离的概念?为什么大模型需要知道这个距离?3.transformer的核心机制是什么?能不能用一个具体的例子串一遍里面所有概念?4.你提到的QKV能不能具体讲一下?它的核心作用是什么?5.模型层叠加之后会出现什么问题?我们要引入什么机制去解决这个问题?6.传统的残差机制会有什么问题?现在业界有没有提出一些新的解决方案?7.现在业界有很多先进的大模型,有些是7b,有些是325b,这个b的概念是什么?我们在做模型选择的时候怎么选?8.对于不同的细分领域,能不能讲一下你对现有的模型厂商他们参数量选型的了解?9.现在给你一个场景,比如说我们做ai coding,你会怎么去选择参数量?10.对话型模型和推理型模型之间的区别是什么?分别适用于什么样的场景?11.简要的介绍一下engine、sub engine、skill、mcp这几个概念,他们的用途是什么?在代码开发过程中分别用来解决什么问题?12.在开发过程中,多轮迭代会话后工程越来越难以维护,你有没有什么好的建议?13.对于上下文工程的最佳实践,常用到的一些技术或者解决方案都有哪些?14.目前这个体系还很复杂,有没有现成的东西来辅助我?有没有了解现在开源社区很火的一些解决方案?问实习:15.聊一下实习期间你遇到最困难的一件事,这件事你是怎么解决的?得到了一个什么样的效果或结果?16.为什么你会选择lsp这个方案?你是怎么找到和评估这个方案的?17.如果说进一步提升的话,你觉得还有什么方向可以改进?让你现在再做一遍的话你是否会选择重新设计?无手撕
查看17道真题和解析
点赞 评论 收藏
分享
一、项目深挖从实习经历里挑一个最能体现技术能力、最有挑战的项目详细聊聊。这个功能整体研发大概多少人参与?在这个项目里压力最大、最棘手的事情是什么?你做了哪些重要的设计决策,这些决策带来了什么效果?更新数据库状态和推送不是原子操作,你当时是怎么权衡的?想保证这两个异步操作绝对一致性,有什么办法?延伸场景:先写数据库 A 再写数据库 B,要求同时成功 / 同时失败,怎么设计?项目用户量、QPS 大概多少?有出现客户投诉吗?功能上线后怎么验证、保证系统稳定?出现异常需要线上应急吗?你设置了哪些告警指标?从现在视角看,你会设置哪些指标观测系统稳定性?二、Full GC 问题排查介绍下当时遇到的 Full GC 问题,以及完整排查过程。三、AI & Web Coding 相关如果用 Web Coding 写这个系统,你会怎么设计提示词?AI 生成代码不可控,你怎么约束、确保符合预期?有没有试过用 Web Coding 写项目,过程中最大问题是什么?业界怎么解决 AI 思考慢、反复出错的问题?有没有考虑用 AI 做测试用例提效,做 TDD 开发?如果设计一个 AI 研发 + 测试的协作 team,怎么设计?研发 Agent 和测试 Agent 之间怎么交互,避免越改越偏?大模型上下文有限,Claude 类产品怎么保证长代码迭代不丢失注意力?四、职业规划 & 行业选择工作之后的职业规划是怎样的?想从事什么行业 / 业务场景,为什么?了解蚂蚁国际是做什么的吗,为什么投这个岗位?五、算法 & 限流(核心编程题)手撕实现滑动窗口限流(1 分钟级别)。单机限流会有什么问题?多线程场景下,单机限流是否还有效?扩展为集群全局限流,怎么调整逻辑?用 Redis 做全局限流,会选用哪种方案?
查看30道真题和解析
点赞 评论 收藏
分享
评论
点赞
14
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务