项目GRPO相关考察个人对SFT和GRPO的关系。问BN和LN的区别?为什么NLP里边是LN?问前 layer norm 和 后 layer norm的区别?pre-LN 恒等分支的权重较大,到深层是影响模型训练效果的主要因素,模型会变得更“宽”;post-norm因为norm(x_{t-1}+f(x_{t-1})), 恒等分支的权重会逐渐削弱,残差分支会成为主导,模型倾向于变得更“深”。参考:https://www.zhihu.com/question/519668254/answer/2371885202手撕编辑距离没看到聊天框就没让写了反问以发论文为目标