字节大模型
和各位佬讨论一下,lora的AB两个矩阵一个全零初始化,一个是高斯随机初始化,这俩初始化方法到底能不能互换?
我看网上有人说互换了训练会变慢或者停滞,有人说不会,这俩矩阵是对称的
#一人一道大厂面试题##我的秋招日记##字节#
我看网上有人说互换了训练会变慢或者停滞,有人说不会,这俩矩阵是对称的
#一人一道大厂面试题##我的秋招日记##字节#
全部评论
trick 可以全高斯随机初始化,只需让W_0 = (W-A_0*B*0)
我记得原文上说A高斯B零初始的效果最好,互换也可以训练倒是
不能
相关推荐
01-06 18:56
门头沟学院 Java 点赞 评论 收藏
分享
01-05 09:14
同济大学 Java
心碎一号线:我要是9✌🏻我就选保研,保研了大四再找实习,实习之后,如果觉得自己不适合互联网工作模式,还能有其他选择,如果实习后决定了走互联网,也能提升学历提高竞争力 点赞 评论 收藏
分享
点赞 评论 收藏
分享