无论文——科大讯飞

合肥,多模态,预训练,基座组(不一定去),30min

华为的卡上训的,几百台

问 qwen3vl 的预训练

问 qwen2.5vl 的预训练

问 qwen2.5vl 和 qwen2vl 的区别

问 gspo grpo dapo 的区别

deepspeed zero/ flash attention

看着像个大佬

无手撕

星火大模型

全部评论

相关推荐

11-19 18:52
香港大学 golang
七牛云一生之敌I两个...:自我评价删了,其他浓缩为一页
投递字节跳动等公司10个岗位
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务