最小化与teacher模型参数的L2距离
最小化student输出与teacher输出的KL散度(软标签蒸馏)或学习teacher的中间层表示
最大化student模型在测试集上的准确率
最小化student模型的参数量
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题