项目GRPO相关考察个人对SFT和GRPO的关系。问BN和LN的区别?为什么NLP里边是LN?问前 layer norm 和 后 layer norm的区别?pre-LN 恒等分支的方差变化累积,到深层是影响模型训练效果的主要因素,f(norm(x))分支因为方差稳定,会成为不重要的参数,到深层之后会变成 参考:https://www.zhihu.com/question/519668254/answer/2371885202手撕编辑距离没看到聊天框就没让写了反问以发论文为目标