所有专家网络的参数趋于相同
路由器总是将token分配给少数几个专家,导致其他专家得不到训练
路由器的梯度消失导致无法更新
专家网络的输出全部为零
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题