昨天 22:22 电子科技大学全栈开发发布于北京

关注

DeepSeekMath-V2 正式开源：什么是DeepSeekMath-V2 数学推理大模型？

在 Gemini 和 Claude 连续“炸场”的同时，许多人开始好奇，曾经引领风潮的“鲸鱼”——DeepSeek，究竟去哪儿了？如今，答案终于揭晓，而且，它比我们预想的还要强大。

🚀 DeepSeekMath-V2 正式开源！

今天，DeepSeek 在 HuggingFace 上公开了其最新力作：DeepSeekMath-V2，这是一款拥有 685B 参数的数学推理模型，震撼了整个开源社区。

文章目录

📢 刚刚，DeepSeek 再次震撼开源社区！这一次，它刷新了我们对数学推理 AI 的想象。

数学竞赛进步神速，深刻洞察背后的挑战

在过去一年中，大型语言模型在数学竞赛中的表现可以说是突飞猛进。从 AIME 到 HMMT，这些竞赛成绩一路飙升。但 DeepSeek 团队意识到，尽管这些模型能够快速得出正确答案，但它们的推理过程存在问题——做对答案 ≠ 正确推理。

数学，向来不仅仅是为了得到答案，更是为了验证逻辑的严谨性，确保每个步骤的推理都毫无漏洞。

DeepSeekMath-V2：自我验证的突破

为了解决这个问题，DeepSeek团队设计了一个独特的“自我验证”机制。该机制通过引入一个评判员角色，来审查和挑剔模型的推理过程，找出其中的漏洞和不严谨的地方。之后，答题者（模型）会根据评判员的反馈，不断调整和修改，直到推理过程无懈可击。

这种自我检查机制不仅确保了最终答案的正确性，更重要的是，它极大提升了模型的数学严谨性。

这项技术有什么影响？

这一创新不仅让 DeepSeekMath-V2 在数学推理的严谨性上迈出了坚实的步伐，还取得了以下令人瞩目的成果：

IMO 2025 和 CMO 2024 等国际数学奥林匹克赛事中，DeepSeekMath-V2 达到了 金牌水平。
在 美国普特南数学竞赛 中，它获得了 118 分（满分120），超过了人类选手的最高分90分。
成为首个 IMO 金奖级别的开源模型。

这一成绩意味着什么？尽管 DeepSeekMath-V2 仍处于早期阶段，但如果这一发展路线成功，AI 不仅能够独立验证数学猜想，甚至可能推动对开放数学问题的进一步研究。

成为数学推理的开创者

目前，DeepSeekMath-V2 已经在 Apache 2.0 协议下全面开源。研究团队表示：“让 AI 学会自我检查，是数学推理系统发展的关键一步。”通过这一创新，DeepSeek不仅在激烈的AI数学竞赛领域中稳占一席之地，还以更强大的实力回归。

未来展望

随着 DeepSeekMath-V2 的开源发布，我们已经看到了 AI 在数学推理领域的巨大潜力。尽管我们现在的技术还处于早期阶段，但这一突破为未来的数学研究打开了新的大门。或许在不久的将来，AI将成为数学领域的有力助手，独立发现和验证新的数学定理。

相关链接：

模型地址：DeepSeek-Math-V2 模型:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
技术论文：DeepSeekMath-V2 论文:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

DeepSeek 以其创新的自我验证机制和卓越的数学推理能力，再次刷新了我们对数学推理 AI 的认知。随着更多的数学推理问题被解决，未来的人工智能将有更多可能，值得我们共同期待。#牛客AI配图神器#

全部评论

推荐最新楼层

11-26 09:37

山西大学测试工程师

我真的会谢

点赞评论收藏

分享

11-24 11:50

已编辑

浙江大学 Java

投票

本人BG：单9硕1. 拼多多：temu用户增长薪资：（n+6）*18优势:薪资高，互联网公司，业务技术可能更好跳槽劣势：11 11 6 单休，在上海 个人更喜欢杭州2. 华为：2012分布式并行计算-通用软开 做对内与tob的AI框架与平台薪资：n*16优势：base杭州，双休，强度应该比拼多多小一些 但也明确说明会经常加班劣势：非互联网厂不好跳槽，技术业务发展前景未知

点赞评论收藏

分享

不愿透露姓名的神秘牛友

11-26 09:44

咋滴，百度裁员，害怕人跳楼不成，楼梯都封了？

这波百度财报不好看，吹了半天的all in也不奏效，开始锁hc，全集团进入人力盘点阶段，部门部门已经开始通知裁员，不过这波补偿不错n+3.5(n+1+0.5签字+2个月年终补偿)，这么李彦宏还不错，不少被裁员工在感谢公司，分手也算体面。就是不知道把某大厦通往天台楼梯封了干啥，害怕tiao吗？防患于未然，也对！

热苏打：年终奖变“分手费”是吧

投递百度等公司10个岗位

点赞评论收藏

分享

11-24 11:23

佛山大学软件测试

简历求拷打！！！

有没有测试的佬帮忙看看！！秋招投了100+，只有两个面试😢😢boss也投，然后用人部门没过。没招了😭

点赞评论收藏

分享

11-24 15:38

已编辑

河北大学 Java

双非一本秋招意向情况收集

投票

主要想看一下大家的整体情况，因为我本人是个一本，所以统计一下一本的大概情况，可以给大家一个参考，也可以满足一下的我好奇心。接下来我以薪资作为划分吧小厂，12k及以下中小厂，12-16k中大厂，16-20k大厂，21-24k一线大厂，25k及以上划分可能不标准，个人随便评估的一个区间，大家只参考薪资吧

牛客28967172...：这有啥好看的？考上双非的可以断定智商一般，自律性也就那样。这种人群画像的大学生活70%时间到处耍，比如躺宿舍打游戏看小说发情了一样到处找对象或逛洗脚店打台球夜店酒吧，20%时间苦思冥想考前突击怎么不挂科，剩下10%不到时间才会学学编程技能，这样搞你能找到工作就不错了。但我也认识真正厉害的双非一本选手，进大学什么社团学生会乱七八糟都不管，一股脑就为了就业，80%时间疯了一样用命学编程技能，平时课也不上，期末考前用20%时间狂刷各科期末真题，最后毕业前不仅拿了多家大厂offer，还搞了几个二三等奖学金。

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的秋招白月光和意难平公司 #

15006次浏览 151人参与

# 职场上哪些事情令人讨厌 #

26982次浏览 111人参与

# 百度秋招 #

56980次浏览 394人参与

# 你想跟着什么样领导？ #

9822次浏览 131人参与

# 机械人还在等华为开奖吗？ #

280279次浏览 1438人参与

# 从夯到拉，评价编程语言 #

8514次浏览 75人参与

# 什么样的背景能拿SSP? #

118684次浏览 417人参与

# 一人一个landing小技巧 #

133656次浏览 1479人参与

# 牛客租房专区 #

127558次浏览 1358人参与

# 找实习是选平台还是选业务？ #

13454次浏览 179人参与

# 每个月花钱最多的地方是？ #

7380次浏览 105人参与

# 大疆的机械笔试比去年难吗 #

93782次浏览 764人参与

# 腾讯工作体验 #

530461次浏览 3593人参与

# 你见过哪些工贼行为 #

46963次浏览 175人参与

# xxx岗位的一天 #

13238次浏览 124人参与

# 十一月总结 #

18891次浏览 179人参与

# 深信服求职进展汇总 #

236940次浏览 1797人参与

# AI“智障”时刻 #

7903次浏览 76人参与

# 实习的内耗时刻 #

203412次浏览 1497人参与

# 分享一个让你热爱工作的瞬间 #

48351次浏览 416人参与

# 你面试时吹过最大的牛 #

24525次浏览 129人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务