面试迟了大概半个小时。说是前面的人没面完。好像他们面试是专门留一天面的。自我介绍,做题。面试官问我会啥,说就是走个流程。leetcode 打家劫舍。主聊项目,考察对 VLM 的理解,CLIP的理解。问Long CoT 如何定义?32k及以上。反问工作强度和业务应用。很累。面完直接第二轮。高强度面试wok。部门老大面试,没做题,感觉是业界大佬。聊强化学习,其中有个点是把 rollout 阶段把全错的样本部分替换为对的,让模型可以进行学习,问“和DPO有啥区别”?这样不是off-policy了吗? on-policy 的优势是什么?GRPO的缺点很大,必须是可验证的query,开发问题,例如报告生...