京东搜索推荐算法一面-日常实习

1.PPO、GRPO、DPO 的损失函数
2.给你看 DPO的公式,从数学关系上推一下刚开始的 loss 是多少-这里是In2
3.这里为什么使用 RL,而不是用 RAG去幻觉-RAG 针对于知识缺失去幻觉,RL针对的是行为推理层面去幻觉
4.奖励函数是如何设计的
5.如果一个句子中确定性的词汇比较多,这样导致会不会导致整体句子的熵比较低,如何解决
6.GNN里边你觉得最重要的知识点是什么
7.手撕:合并 K个升序链表
全部评论
如果一个句子中确定性的词汇比较多,这样导致会不会导致整体句子的熵比较低,如何解决咋回答的
点赞 回复 分享
发布于 01-22 20:24 云南

相关推荐

2025-12-31 13:20
北京大学 算法工程师
点赞 评论 收藏
分享
1.GAN和Transformer 这两个分别在你的项目里承担了哪些作用?这两个是怎么帮助你推动模型进行图像或者视频重建并提升性能?2.你的GAN以及生成器和判别器主要负责什么工作的,讲一下他们的核心作用以及怎么协同的3.你做项目的时候是先用的生成器还是判别器,为什么要这样设计呢?4.你的轻量化参差模块在优化Swin transformer发挥的什么作用?5.计算机视觉中多尺度融合是什么含义6.为什么深层次神经网络中提取的图像特征被称为”语义特征”?怎么处理图片信息的,多尺度特征的提取怎么提升的模型性能,你用了什么技术和算法框架去实现的7.在你处理模型时用的什么注意力机制,在大模型图像处理项目时这些模块在整体架构分别承担了什么职责?8.你在里面用的对抗损失函数怎么设计的,怎么结合别的模块使用的9.你用的WGAN,他和原始的GAN是怎么改进梯度问题的,以及损失函数中梯度惩罚项怎么实现的Lipschitz约束10.你说一下逻辑回归他的原理还有适用场景以及如何实现的11.在逻辑回归中,我们一般用交叉墒损失函数,你可以说一下为什么吗?12.你结合一下逻辑回归二分类任务,说一下为什么这种情况经常使用交叉墒损失而不是均方误差损失呢?13.L1L2正则化在机器学习模型中的作用是什么(这里要求写数学公式)14.请详细介绍一下PPO这个在强化学习中的策略优化算法,主要思路和流程是什么15.在PPO的算法损失函数中,有两个操作,一个是clip,还有一个是min,请你说一下这两个操作的方式作用还有他们在PPO中的意义。16.在PPO算法的损失函数设计中,cilp的操作已经能够限制策略更新的幅度确保稳定性,为什么还需要在损失计算中取原始的目标和clip的较小值?如果只保留clip部分,不取较小值会有什么问题?
查看16道真题和解析
点赞 评论 收藏
分享
评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务