无论文——科大讯飞

合肥,多模态,预训练,基座组(不一定去),30min

华为的卡上训的,几百台

问 qwen3vl 的预训练

问 qwen2.5vl 的预训练

问 qwen2.5vl 和 qwen2vl 的区别

问 gspo grpo dapo 的区别

deepspeed zero/ flash attention

看着像个大佬

无手撕

星火大模型

全部评论

相关推荐

不愿透露姓名的神秘牛友
今天 10:05
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务