滴滴RL实习生面经

浙大98投递

背景:9本9硕,1篇2作A, 1篇4作A, 1篇1作在投,半年算法研究实习

一面

科研经历

如何增强多模态模型的识别准确度(比如识别出一个医疗手写表格中的特征与具体值)

在用verl做强化学习时,你是根据什么指标来查看训练的进度的。

讲一讲你对rag的理解

ppo的原理

ppo是倾向于将模型往什么方向训练

讲一个你最熟悉的模型(讲的deepseek-r1)

多模态基础

手写多头注意力

为什么计算注意力要除以维度

decoder-only的结构,输入prompt到输出token的整个过程。

有什么办法将2维的embedding转换成3维的embedding,同时保留位置编码信息

以后读博还是进入工业界

如果有转正机会,是否考虑留下

反问:

做什么(关于多模态Agentic RL的算法研究,论文导向,从头开始发顶级会议论文)

base

需要学习的内容。

好久没面试了,有点紧张,讲述逻辑很混乱,而且多模态没准备也没基础,有点凉了

全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务