滴滴RL实习生面经
浙大98投递
背景:9本9硕,1篇2作A, 1篇4作A, 1篇1作在投,半年算法研究实习
一面
科研经历
如何增强多模态模型的识别准确度(比如识别出一个医疗手写表格中的特征与具体值)
在用verl做强化学习时,你是根据什么指标来查看训练的进度的。
讲一讲你对rag的理解
ppo的原理
ppo是倾向于将模型往什么方向训练
讲一个你最熟悉的模型(讲的deepseek-r1)
多模态基础
手写多头注意力
为什么计算注意力要除以维度
decoder-only的结构,输入prompt到输出token的整个过程。
有什么办法将2维的embedding转换成3维的embedding,同时保留位置编码信息
以后读博还是进入工业界
如果有转正机会,是否考虑留下
反问:
做什么(关于多模态Agentic RL的算法研究,论文导向,从头开始发顶级会议论文)
base
需要学习的内容。
好久没面试了,有点紧张,讲述逻辑很混乱,而且多模态没准备也没基础,有点凉了
查看5道真题和解析