备战春招之百度搜索一面(草稿)

项目 GRPO相关 考察个人对SFT和GRPO的关系。

了不了解GSPO?(看来还是得看一下论文学一下)

问BN和LN的区别?

为什么NLP里边是LN?

问前 layer norm 和 后 layer norm的区别?

pre-LN 恒等分支的方差变化累积,到深层是影响模型训练效果的主要因素,f(norm(x))分支因为方差稳定,会成为不重要的参数,到深层之后会近似等于

因为norm之后,这一项的重要性降低,导致,变成一个浅而宽的模型,失去了deep的意义

而post-LN:

每一层的参数都会导致模型训练的不稳定,因此

参考: 苏神的解答

leetcode: 手撕编辑距离

没看到聊天框就没让写了

反问

以发论文为目标

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务