首页 > 试题广场 >

知识蒸馏(Knowledge Distillation)应用

[单选题]
知识蒸馏(Knowledge Distillation)应用于LLM推理优化时,student模型的训练目标通常是?
  • 最小化与teacher模型参数的L2距离
  • 最小化student输出与teacher输出的KL散度(软标签蒸馏)或学习teacher的中间层表示
  • 最大化student模型在测试集上的准确率
  • 最小化student模型的参数量

这道题你会答吗?花几分钟告诉大家答案吧!