上岸一路向前冲

昨天 13:48 门头沟学院算法工程师

关注

阿里国际大模型算法一面分享

发一下问题给大家参考，攒攒人品！
1- 问项目
2-为什么选择grpo不用sft，技术选型，什么时候用sft，什么时候用蒸馏，什么时候用grpo
3- grpo训练中观察什么指标
4-八股：
5- grpo 的 loss 讲讲
6- Advangates 怎么算的，在整个训练中起什么作用，为什么需要Advatanges，直接用奖励去算不行吗？
7-重要性采样，为什么需要。如果一次新策略和旧日策略差别很大，那重要性采样还有用吗
8-grpo的K|散度和ppo的kl散度是一模一样的吗
9- ppo grpo Fon-policytEoff-policy
10- ppo中advantages是怎么得到的？
11-信用分配，grpo中，比如一个采样结果，是序列级别的，如果这个序列的最终奖励高，那么是如何分配到每个token的
12-Agent 做多轮工具调用和单轮，可能有什么挑战？
13- code: x 的平方根

全部评论

推荐最新楼层

昨天 22:18

门头沟学院 Web前端

腾讯pcg卡录用评估了

有没有qq的大佬帮我看看是什么情况？加上五一假期已经在录用评估12天了😭

牛客解忧铺

点赞评论收藏

分享

昨天 11:47

三江学院 C++

AI Agent面经 1（持续更新）

Q1：⼀句话说明什么是 AI Agent？答案：AI Agent 是以⼤模型为认知核⼼，结合规划、记忆与⼯具调⽤，能在多步交互中根据环境反馈持续决策并完成任务的系统；其本质是 闭环的感知—思考—⾏动 循环，⽽不仅是单次⽂本⽣成。Q2：为什么说 Agent = LLM + Planning + Memory + Tools？缺⼀块会怎样？答案：缺 Planning：容易变成「只会接话」的聊天，⻓任务易跑偏或⼀步登天完不成。缺 Memory：⻓对话会丢线索，多会话⽆法延续⽤户偏好与任务状态。缺 Tools：只能「空谈」，⽆法查实时信息、执⾏代码、改系统状态。LLM 仍是中枢，但单靠 LLM 没有外...

大模型、Agent面试八...

点赞评论收藏

分享

昨天 14:30

门头沟学院算法工程师

字节27实习-大模型算法一面面经分享

继续来分享下最近的面经~欢迎友好讨论，信息共享论文1拷打：1.怎么判断这个视觉推理问题表现不足是encoder部分的问题还是后面llm推理的问题 追问怎么把图像转化为caption 不会透题吗 测评指标是什么2.单agent多能力和多agent相比的优劣势3.不确定性怎么量化的 还了解其他不确定性置信度的量化方法吗 什么原因让你再加入Top k token的分差 并且设置50%的占比计算不确定性 回答是一长串文本的话 哪一部分参与最后的不确定性计算4.辩论迭代机制怎么做的论文2拷打:1.衡量推理能力 怎么想到要这样设计这三个维度的题目2.怎么提高模型在回答这种问题的正确率 怎么让模型去挖掘这些关联关系手撕：二维有序矩阵查找指定值

点赞评论收藏

分享

昨天 16:10

华为_系统工程师

【面试真题】美团Agent 方向面经整理（思路引导 + 推荐回答）

Agent / LLM 方向面经整理（思路引导 + 推荐回答）  每章开头有一小段本章思路引导（这类题整体上在考什么、怎么组织话）。每道题下先有一行思路（答题时先想什么），再是推荐回答（可参考的表述骨架）。请把里面的名词、数字换成你项目里的真实情况，别整段背。  一、写在前面 如果投的岗位对后端技术栈有一两条要求，你没有相关经历但业务还是放了简历进来，最好针对 JD 里那两条单独准备一下。其实就算 JD 没写死，HTTP、流式、异步这类也算互联网底座，有时间还是摸一遍皮毛，面试里至少能接住话头、显得你是主动补过的人。 没正经后端经历的（比如我），体感是面试官一般不会往死里抠实现细节，更在意知识...

点赞评论收藏

分享

04-23 13:43

河北工业大学 Java

盲审已过，工作已定

盲审已过，工作已定。前几天疯狂打游戏刷抖音，现在一点也不想碰了，感觉没啥意思。在考虑要不要提前实习或者想办法搞个副业啥的

飞屋一号：去旅游啊，最后空闲的一段时间

没有面试的日子里，你在做...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

20854次浏览 176人参与

# 上班苦还是上学苦呢？ #

345229次浏览 2069人参与

# 在爱玛，骑向未来 #

2740次浏览 315人参与

# 如果春招能重来，我会___ #

21574次浏览 229人参与

# 提名点击就挂的公司 #

144152次浏览 491人参与

# 除了线上，还能去哪些地方投简历 #

11606次浏览 115人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

47712次浏览 517人参与

# 字节开奖 #

151098次浏览 688人参与

# 实习怎么做才有更好的产出 #

49911次浏览 456人参与

# AI coding的好用工具分享 #

88450次浏览 567人参与

# 找工作以来，你最看不惯__ #

79413次浏览 594人参与

# 大学四年该怎么过，才不算浪费时间？ #

23858次浏览 106人参与

# 运营每日一题 #

144342次浏览 978人参与

# 面试等了一周没回复，还有戏吗 #

245983次浏览 1857人参与

# 字节7000实习来了，你投了吗？ #

55235次浏览 421人参与

# 毕业后不工作的日子里我在做什么 #

269119次浏览 1739人参与

# 薪资爆料 #

422453次浏览 2226人参与

# HR问：你期望的薪资是多少？如何回答 #

99340次浏览 833人参与

# 我的秋招“寄”录 #

476373次浏览 3063人参与

# 哪一刻你突然觉得实习“有点值了” #

28244次浏览 177人参与

# 双非本科求职如何逆袭 #

1648706次浏览 13080人参与

# 双非应该如何逆袭？ #

586512次浏览 6394人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务