27实习阿里国际 大模型算法一面 好难啊

攒攒人品!有面试过同岗的朋友欢迎评论区交流
1- 问项目
2-为什么选择grpo不用sft,技术选型,什么时候用sft,什么时候用蒸馏,什么时候用grpo
3- grpo训练中观察什么指标
4-八股:
5- grpo 的 loss 讲讲
6- Advangates 怎么算的,在整个训练中起什么作用,为什么需要Advatanges,直接用奖励去算不行吗?
7-重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
8- grpo的k|散度和ppo的kI散度是一模一样的吗
9- ppo grpo Fon-policytEoff-policy
10- ppo中advantages是怎么得到的?
11- 信用分配,grpo中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的
12- Agent 做多轮工具调用 和单轮,可能有什么挑战?
13- code: x 的平方根
全部评论
感觉确实比较难啊
点赞 回复 分享
发布于 04-26 22:55 北京

相关推荐

腾讯 AI部门:CSIG-元宝、TEG-机器学习部、TEG-数据平台部、TEG-多模态模型部、TEG-大语言模型部薪酬:16薪绩效:outstanding 5-6个月 / good 3-4个月股权:行权周期3年(第1年1/3,第2年1/3,第3年1/3)其他福利:签字费、房补字节AI部门:应用-剪映、应用-豆包、模型-seed、模型-火山、智能计算研究院薪酬:15薪绩效:E 6个月+ / M+ 4个月+ / M 3个月+ / M- 1-2个月 / I 0-1个月股权:行权周期4年(第1年20%,第2年25%,第3年25%,第4年30%)其他福利:签字费+期权、三餐免费、房补阿里AI部门:钉钉、LMA大模型、夸克大模型、阿里云通义、AI Business薪酬:16薪绩效:3.75对应5-6个月 / 3.5对应3-4个月股权:行权周期4年(第1年15%,第2年25%,第3年30%,第4年30%)其他福利:签字费+股票、餐补、购房免息贷款美团大模型团队绩效系数:S 1.5+ / A 1.1-1.3 / B 0.5-1.1 / C 0-0.5股权行权周期:第1年0%,第2年50%,第3年25%,第4年25%福利:20:00后餐补百度部门:文心飞桨、千帆/智能云、智驾硬件薪酬:15.5薪(部分16薪)绩效:E 1.3~2 / M+ 1.05~1.35 / M 0.8~1.05 / M- 0股权行权周期:4年,新人每年25%,老员工不固定福利:餐补京东部门:具身智能、探索研究院薪酬:19薪 + 签字费绩效:A+ 8个月 / A 6个月 / B 5个月 / B- 3个月 / C 0股权行权周期:第1年15%,第2年35%,第3年25%,第4年25%福利:餐补小红书部门:AI技术部绩效:3.5+ 3-7个月 / 3.75 5-10个月 / 4 20个月+ / 5 20-30个月股权行权周期:第1年0%,第2年50%,第3年25%,第4年25%福利:三餐免费、房补小米部门:应用算法部、hi lab薪酬:16薪股权激励计划:最长十年福利:餐补快手部门:AI实验室、AI平台部、可灵AI薪酬:15-18薪 + 股票(部分16薪)绩效:S 2.4 / A 1.6 / B+ 1.1 / B 1(另一口径:S 8-10个月 / A 6-8个月 / B 3-4个月 / C 0-1个月)股权行权周期:第1年25%,第2年25%,第3年25%,第4年25%福利:房补
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务