Qwen 模型每个版本之间的改进点

1️⃣Qwen1 模型训练使用FlashAttention 进行加速优化使用 AdamW 优化器进行BF16 混合精度训练训练时上下文长度为 2048,经过 NTK 插值法将上下文长度外推到 8192
2️⃣Qwen1.5 模型结构改进引入GQA,但只有 3️⃣Qwen1.5-32B 使用了GQA加入 MoE(14B-A2.7B)系列模型,使用4个共享专家与60个细粒度专家,每次推理激活4个专家网络
4️⃣Qwen2 模型结构改进全系列使用 GQA,KV 缓存减少40%使用 YaRN+DCA(双块注意力机制)
5️⃣Qwen2.5 模型尺寸共有0.5B、1.5B、3B、7B、14B、32B、72B这7种尺寸
6️⃣Qwen3 模型训练
1.预训练:数据规模从 18T tokens 拓展至 36T tokens。
2.后训练:先使用CoT冷启动微调;再使用 GRPO 对query-verifier 数据集进行强化推理。
3.数据蒸馏:用 KL 散度将对小模型与大模型对齐
7️⃣Qwen3-2507模型结构改进将思考/非思考模型分开,不再使用一个模型进行切换。支持超长文本 256K
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

09-19 13:59
门头沟学院 Java
用微笑面对困难:Trae一下,如果真成了,他用了直接发字节起诉代码版权,,这个代码不商用是没问题的如果没成也是情理之中的。
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务