美团算法实习一面技术面 50min

1. GRPO是on policy还是off policy?为什么?
2. GRPO利用的数据是旧策略产生的,那为什么还叫on policy?
3. 重要性采样解决了什么问题? 公式是怎么样的?解释下每个参数
4. GSPO和DAPO分别解决了什么问题?怎么解决的?
5. 什么是强化学习的熵崩溃?怎么优化或者解决这个问题?
6. 熵崩溃和reward hacking什么关系?
7. Qwen3和ds r1区别?
8. 如何确定你项目的评估指标迭代是否符合当前需求?
9. MLA具体是怎么做的?可以加快推理速度吗?
10.  代码题是给三段代码,判断输出。
全部评论

相关推荐

1.GAN和Transformer 这两个分别在你的项目里承担了哪些作用?这两个是怎么帮助你推动模型进行图像或者视频重建并提升性能?2.你的GAN以及生成器和判别器主要负责什么工作的,讲一下他们的核心作用以及怎么协同的3.你做项目的时候是先用的生成器还是判别器,为什么要这样设计呢?4.你的轻量化参差模块在优化Swin transformer发挥的什么作用?5.计算机视觉中多尺度融合是什么含义6.为什么深层次神经网络中提取的图像特征被称为”语义特征”?怎么处理图片信息的,多尺度特征的提取怎么提升的模型性能,你用了什么技术和算法框架去实现的7.在你处理模型时用的什么注意力机制,在大模型图像处理项目时这些模块在整体架构分别承担了什么职责?8.你在里面用的对抗损失函数怎么设计的,怎么结合别的模块使用的9.你用的WGAN,他和原始的GAN是怎么改进梯度问题的,以及损失函数中梯度惩罚项怎么实现的Lipschitz约束10.你说一下逻辑回归他的原理还有适用场景以及如何实现的11.在逻辑回归中,我们一般用交叉墒损失函数,你可以说一下为什么吗?12.你结合一下逻辑回归二分类任务,说一下为什么这种情况经常使用交叉墒损失而不是均方误差损失呢?13.L1L2正则化在机器学习模型中的作用是什么(这里要求写数学公式)14.请详细介绍一下PPO这个在强化学习中的策略优化算法,主要思路和流程是什么15.在PPO的算法损失函数中,有两个操作,一个是clip,还有一个是min,请你说一下这两个操作的方式作用还有他们在PPO中的意义。16.在PPO算法的损失函数设计中,cilp的操作已经能够限制策略更新的幅度确保稳定性,为什么还需要在损失计算中取原始的目标和clip的较小值?如果只保留clip部分,不取较小值会有什么问题?
查看16道真题和解析
点赞 评论 收藏
分享
评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务