字节大模型
和各位佬讨论一下,lora的AB两个矩阵一个全零初始化,一个是高斯随机初始化,这俩初始化方法到底能不能互换?
我看网上有人说互换了训练会变慢或者停滞,有人说不会,这俩矩阵是对称的
#一人一道大厂面试题##我的秋招日记##字节#
我看网上有人说互换了训练会变慢或者停滞,有人说不会,这俩矩阵是对称的
#一人一道大厂面试题##我的秋招日记##字节#
全部评论
trick 可以全高斯随机初始化,只需让W_0 = (W-A_0*B*0)
我记得原文上说A高斯B零初始的效果最好,互换也可以训练倒是
不能
相关推荐
01-16 22:31
赣南师范大学 运营
白火同学:1、简历可以浓缩成一页,简历简历先要“简”方便HR快速过滤出有效信息,再要“历”用有效信息突出个人的含金量。
2、教育背景少了入学时间~毕业时间,HR判断不出你是否为应届生。
3、如果你的平台账号效果还不错,可以把账号超链接或者用户名贴到对应位置,一是方便HR知道你是具体做了什么内容的运营,看到账号一目了然,二是口说无凭,账号为证,这更有说服力。 点赞 评论 收藏
分享