无论文秋招——核桃科技二面

聊得还挺愉快的

面试官问的更多的是思考

看得出面试官还是比较懂的

问了

cot的发展历程,为什么出现cot,有什么好处,解决了什么问题,第一个cot模型怎么设计出来的?

开山之作:Chain-of-Thought Prompting Elicits Reasoning(few-shot) ,“Let’s think step by step”

过度思考怎么解决:1、训练混合推理的数据,2、用户自己决定开不开启think,3、外加一个分类器,输出是问题的think budget。

test time scale是什么?

语言捷径问题的定义,为什么会出现这种现象,如何验证,怎么解决?

定义:VLM过分依赖文本先验的现象,

why :是预训练中太多的经验导致的(例如图片中人有五个手指头的问题),

验证的方法:通过遮掉图片,看纯文本能答对多少

那么数据不干净可能会导致你的验证失败:可以通过embbeding的方式计算图文相似度,不相似的直接过滤掉。

怎么从网络结构或者内部去量化的验证语言先验或者语言捷径问题呢?可视化注意力。看视觉token和文本token的注意力分数。

SFT 和 RL的区别,什么时候用SFT,什么时候用RL? 数据量,数据够sft,不够rl。

怎么混合使用 SFT 和 RL?先sft学格式,(或许few shot也行?),再RL。

RL为什么泛化性更好?因为RL的loss函数是“趋利避害”的,更重要的是response是模型自己回答的,不是外部的数据(分步可能不同。)

无八股和做题。

业务方向

3D生成

9h打卡

比较轻松

##卡 8?爱去20#

#即使 4090 ?5090##

无论文勇闯秋招算法岗 文章被收录于专栏

无论文勇闯秋招算法岗 面试考点记录

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务