字节大模型

和各位佬讨论一下,lora的AB两个矩阵一个全零初始化,一个是高斯随机初始化,这俩初始化方法到底能不能互换?
我看网上有人说互换了训练会变慢或者停滞,有人说不会,这俩矩阵是对称的
#一人一道大厂面试题##我的秋招日记##字节#
全部评论
trick 可以全高斯随机初始化,只需让W_0 = (W-A_0*B*0)
点赞 回复 分享
发布于 09-13 21:04 广东
我记得原文上说A高斯B零初始的效果最好,互换也可以训练倒是
点赞 回复 分享
发布于 09-05 18:08 北京
不能
点赞 回复 分享
发布于 09-05 00:31 北京

相关推荐

影04714:把图书管理系统那个项目经验内容适当的减少掉,然后改成据为己有不要说团队项目,因为图书管理系统这类常见的谁来了都能独立写出来,提问能圆过来即可
点赞 评论 收藏
分享
11-06 23:30
已编辑
华中师范大学 后端工程师
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务