算法打工人

09-16 23:04 中山大学算法工程师发布于山东

关注

Qwen 模型每个版本之间的改进点

1️⃣Qwen1 模型训练使用FlashAttention 进行加速优化使用 AdamW 优化器进行BF16 混合精度训练训练时上下文长度为 2048，经过 NTK 插值法将上下文长度外推到 8192
2️⃣Qwen1.5 模型结构改进引入GQA，但只有 3️⃣Qwen1.5-32B 使用了GQA加入 MoE（14B-A2.7B）系列模型，使用4个共享专家与60个细粒度专家，每次推理激活4个专家网络
4️⃣Qwen2 模型结构改进全系列使用 GQA，KV 缓存减少40%使用 YaRN+DCA（双块注意力机制）
5️⃣Qwen2.5 模型尺寸共有0.5B、1.5B、3B、7B、14B、32B、72B这7种尺寸
6️⃣Qwen3 模型训练
1.预训练：数据规模从 18T tokens 拓展至 36T tokens。
2.后训练：先使用CoT冷启动微调；再使用 GRPO 对query-verifier 数据集进行强化推理。
3.数据蒸馏：用 KL 散度将对小模型与大模型对齐
7️⃣Qwen3-2507模型结构改进将思考/非思考模型分开，不再使用一个模型进行切换。支持超长文本 256K
📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

全部评论

推荐最新楼层

10-09 09:45

滴滴_运维开发工程师(准入职员工)

🔥滴滴一二三面 技术面 面经后端最近结束了滴滴的面试，三轮技术面问得超细致❗️整理了完整面经和思路分享给大家👇——————🧩一面 60min•RocketMQ vs Kafka 区别（设计理念/吞吐/延迟）•Redis性能核心：内存+I/O多路复用原理•Redis数据结构选型场景实战•MySQL与Redis一致性方案（旁路缓存策略）•协程原理剖析：Goroutine底层调度模型•Lua脚本实现原子库存扣减•MySQL索引优化与B+树优势•防超卖方案：分布式锁+库存校验•算法：搜索旋转排序数组（二分变形）——————🧩二面 60min•List遍历删除的坑（迭代器失效问题）•MySQL索...

点赞评论收藏

分享

10-08 14:50

海康威视_技术支持部_云存储开发工程师(准入职员工)

海康威视内推，海康威视内推码

笔试真实工作体验！也想分享一下自己对海康的感受，也在海康总部的3期。 之前看了网上的评论实属是有点吓人的，但是百闻不如一见自己终究是亲自感受了一下。 这可能是我国内外大大小小加起来的第6段实习或者工作。 海康首先给我的感觉是人真的好多，尤其食堂的人，我可能上学都没有见过这么多人，还有电梯，我每次坐是一头雾水。当然这些对于我来说都不是很重要。 可能很多人最关心的就是海康的工作强度和时间是不是真如网上说的那么严重，而通过这段时间的感受，我觉得海康可能是我节奏最慢的一次体验，完成了任务就可以开开心心的回家了，根本不需要无效加班，如果自己想学点产品类的知识还是可以在公司里多学一点的。 关于部门小组氛围...

海康威视公司福利 1010人发布

点赞评论收藏

分享

09-19 13:59

门头沟学院 Java

刷到的还是让我遇上了

bro搁这写需求呢😅

用微笑面对困难：Trae一下，如果真成了，他用了直接发字节起诉代码版权，

，这个代码不商用是没问题的

如果没成也是情理之中的。

点赞评论收藏

分享

10-08 15:45

合合信息_Agent数据工程师(准入职员工)

合合信息内推-合合信息内推码

合合信息测试实习面经，摘自优秀牛友攒攒人品主要问实习经历base上海1.自我介绍2.实习项目做了几次迭代，每次迭代涉及几个功能3.实习项目时间是否非常紧凑4.讲解一下当时负责的比较复杂的功能5.发现的印象比较深刻的bug6.团队大概多少人7.测试中怎么分bug是前端还是后端8.团队沟通有发生什么问题吗9.实习过程中测试时除了功能方面的问题还会注意哪些方面的问题10.对自己的规划是什么11.平时除了学习还有什么爱好12.自己的性格对于测试有什么优势13.自己有什么缺点14.反问合合信息2026届秋季校园招聘网申开启【企业简介】合合信息是行业领先的人工智能及大数据科技企业。旗下明星产品有扫描全能王...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 谈薪时HR压价该怎么应对 #

227080次浏览 3236人参与

# 新凯来求职进展汇总 #

47385次浏览 122人参与

# 爱玛科技集团求职进展汇总 #

21574次浏览 173人参与

# 什么专业适合考公 #

41218次浏览 243人参与

# 机械制造岗投递时间线 #

31337次浏览 379人参与

# 招银网络求职进展汇总 #

157812次浏览 976人参与

# 深信服秋招来了 #

278242次浏览 2914人参与

# 毕业租房也有小确幸 #

138234次浏览 4481人参与

# 华为海思工作体验 #

27949次浏览 117人参与

# 百度工作体验 #

266636次浏览 2109人参与

# 互联网公司爆料 #

143292次浏览 702人参与

# 26届秋招投递记录 #

45531次浏览 493人参与

316534次浏览 2896人参与

# 面试被问“你的缺点是什么?”怎么答 #

149727次浏览 1900人参与

# 央国企投递记录 #

120511次浏览 1509人参与

# 校招求职有谈薪空间吗 #

173752次浏览 2197人参与

# 电信求职进展汇总 #

18145次浏览 115人参与

# 实习中的菜狗时刻 #

436940次浏览 3499人参与

# 找工作前vs找工作后的心路变化 #

24881次浏览 215人参与

# 机械校招之路总结 #

102001次浏览 2014人参与

# 深信服提前批进度交流 #

93915次浏览 678人参与

# 格力求职进展汇总 #

188156次浏览 1251人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务