MTP训练阶段怎么做的?推理阶段投机采样怎么做的?输入1个 token t1,主模型会预测1个token t2 ,MTP层会循环预测N次,N个draft token, dt1,dt2,...dtn,共1 + 1 + N 个token然后 t1,t2, dt1,dt2,...dtn 送入模型模型会并行根据 t1,t2 预测t3,对应dt1根据 t1,t2, dt1 预测t4,对应dt2根据 t1,t2, dt1,dt2 预测t5,对应dt3...当dt中某一个不被主模型接受,就丢弃后边所有的draft token例如dt1,dt2被接受,记作t3,t4,dt3不被接受那么相等于多吐出了2个tok...