无论文——科大讯飞
合肥,多模态,预训练,基座组(不一定去),30min
华为的卡上训的,几百台
问 qwen3vl 的预训练
问 qwen2.5vl 的预训练
问 qwen2.5vl 和 qwen2vl 的区别
问 gspo grpo dapo 的区别
deepspeed zero/ flash attention
看着像个大佬
无手撕
星火大模型
合肥,多模态,预训练,基座组(不一定去),30min
华为的卡上训的,几百台
问 qwen3vl 的预训练
问 qwen2.5vl 的预训练
问 qwen2.5vl 和 qwen2vl 的区别
问 gspo grpo dapo 的区别
deepspeed zero/ flash attention
看着像个大佬
无手撕
星火大模型
相关推荐