百度文心大模型 实习算法 二面
攒攒人品!!!
1、 attention中数据shape是batchfirst还是seq_len first
2、Prompt长度加倍,首token延迟加倍吗
3、模型选型时是否做定性定量对比abtest,客观数据验证文心性能不好了吗
4、专家的负载均衡是什么,怎么解决
5、如何定性定量评估数据集质量,单条和整体数据集质量
6、单一分类模型,细分分类模型和MOE融合的优劣
7、MHA手写
8、说一下simpo的原理,它是怎么解决dpo微调序列过长的问题的
9、deepspeed的每一段的通信比较,zero3分别是0和2的多少倍
1、 attention中数据shape是batchfirst还是seq_len first
2、Prompt长度加倍,首token延迟加倍吗
3、模型选型时是否做定性定量对比abtest,客观数据验证文心性能不好了吗
4、专家的负载均衡是什么,怎么解决
5、如何定性定量评估数据集质量,单条和整体数据集质量
6、单一分类模型,细分分类模型和MOE融合的优劣
7、MHA手写
8、说一下simpo的原理,它是怎么解决dpo微调序列过长的问题的
9、deepspeed的每一段的通信比较,zero3分别是0和2的多少倍
全部评论
相关推荐
查看7道真题和解析