无论文勇闯大模型——贝壳找房
面试迟了大概半个小时。说是前面的人没面完。
好像他们面试是专门留一天面的。
自我介绍,做题。面试官问我会啥,说就是走个流程。
leetcode 打家劫舍。
主聊项目,考察对 VLM 的理解,CLIP的理解。
问Long CoT 如何定义?32k及以上。
反问工作强度和业务应用。很累。
面完直接第二轮。高强度面试wok。
部门老大面试,没做题,感觉是业界大佬。
聊强化学习,其中有个点是把 rollout 阶段把全错的样本部分替换为对的,让模型可以进行学习,问“和DPO有啥区别”?
这样不是off-policy了吗? on-policy 的优势是什么?
GRPO的缺点很大,必须是可验证的query,开发问题,例如报告生成,就很难,非常难,他们就在做这个。
聊多模态embedding,聊CLIP的缺点。
聊了聊对VLM的看法。
说了一些建议,对算法工程师职位的理解,未来的发展规划等等。
是那种落地的大佬,比较注重实际业务产出。
面完 hr 面。
说月底给通知。
问往年薪资。
大概30k左右。16薪。
没办法,水平有限。