2025国产显卡崛起!数据处理双创新,国产GPU性能逼近美国产

当你在电脑上用高帧率玩完《黑神话:悟空》,或者刷到国内的AI大模型又完成了一轮新训练,可能没注意到一个重要的转变:到了2025年,那些一直被英伟达“卡住脖子”的国产GPU,好像出现了点不同的迹象。

一方面,摩尔线程、沐曦股份这些“行业新星”正努力推动上市进程;另一方面,华为直言不讳地公布了昇腾系列到2028年的技术规划。就连英伟达的CEO黄仁勋也开玩笑说:“美国的AI芯片领先中国也就几纳秒而已。”

虽然场面挺热闹,但心里不免有点疑问:眼下的国产GPU,到底是真正能跟英伟达一较高下,还是只是“外表看着不错”?

实际上,2025年国产GPU的“崛起”并不是某一家企业一夜之间突发奇想搞出来的,而是“市场应用的落实”加上“技术积累长远规划”两方面共同推动的成果。

那些被称为“国产GPU四小龙”的公司,像摩尔线程、沐曦股份、壁仞科技和燧原科技,它们陆续开启上市步伐,可不只是单纯的“融资扩建”。

要知道,GPU的研发向来是个“烧钱”的活儿,从芯片设计到流片测试,动辄几亿的投入少不了。而上市筹了钱,能帮这些公司更有底气搞生态圈建设、吸引开发者,说明国产GPU正式从“实验室技术”迈向“市场验证”的重要关卡。

而且华为直接公布了昇腾系列GPU到2028年的发展规划,性能的发展路线图非常清楚,这种“提前亮出底牌”的做法,与黄仁勋那句“领先几纳秒”的评价不谋而合,形成了一种巧妙的呼应。

这也说明国产GPU,从以前的“被动追赶”,变成了如今能“主动布局未来”的玩家,真正“觉醒”的底气,看得一清二楚。

要说“国产GPU能不能和英伟达比肩”,这个问题答案其实得看各自的实际应用表现。不管是普通用户用的那些消费级显卡,还是企业数据中心里用的算力核心,现如今都出现了具备竞争力的产品,令人眼前一亮。

曾经有人总是觉得“国产GPU跑分挺漂亮,实际用起来就不行”,不过如今情况可是完全不一样了。

摩尔线程的MTTS90和砺算科技的7G106,在专业的跑分测试里,已经追得上甚至超过了英伟达的RTX4060。

更重要的是,用它们来玩《黑神话:悟空》这种3A大作,基本都能保证稳定高帧率,画面流畅不卡顿、不掉帧,绝对能满足大部分玩家的要求。

再说芯动科技的风华三号,简直把“全能”发挥到极致:它配备的112GHBM内存,能够支持8K分辨率渲染和硬件光锥技术,画面细节满满,逼真到炸。

它不仅能玩游戏,AI性能也是杠杠的,单张显卡就能顺畅运行720亿参数的大模型,八卡拼在一起还能带动DeepSeek的全血版本模型。这说明以后家庭用户想跑个小模型搞创意,或者用AI生成高清图,都不用再仰赖英伟达国产显卡也能搞定,真是给力!

再看看企业级数据中心那边,国产GPU也不差劲,华为的昇腾910C可是个代表性人物。

或许有人会觉得“单卡还是有点不足”,不过国产GPU选择了不同的“差异化发展路径”,主要依靠集群的强大能力来补足这个短板。

英伟达最大的NVL72模块,能塞下72块GPU和36颗CPU,而华为的昇腾384超节点,直接可以装下384块GPU和192个CPU,这样“狼群策略”在实际用起来还挺得力的。

国内一些算力中心里,华为、摩尔线程、沐曦这些厂家的设备正逐步深耕,AI大模型的训练和推理场景已经开始大批量出货。简单说吧,用国产GPU搭建算力集群,现在也能搞定过去只有英伟达能干的事情了。

不过,咱们得明白点:能“比得上”不代表就能“赶得上”,要说“十年能不能追平”,得先看清英伟达还在的三个主要壁垒,每一项都得花时间去攻破。

第一个嘛,就是生态圈,这也是最难突破的一道坎。

英伟达花了二十年时间打磨的CUDA平台,光是配套的库和工具就有数万种,和TensorFlow、PyTorch这些国际领先的AI框架捆得死死的,开发者用起来既熟悉又顺手,就像习惯了智能手机,突然用功能机,真是难以适应别的平台。

华为也推出自己的一套CNN框架,不过在成熟度和易用性上,还有待进一步提升。大部分其他厂商都选择“兼容CUDA”,但这个“兼容”可不是直接套用别人的代码,那样容易侵犯版权,而是在API接口和编译器层面做适配,确保开发者不用学习新的规范就能顺利使用。

关于可生态这个事,得大规模部署才好积累经验,没有经验呢,想大规模推行就更难,这就像那“先有鸡还是先有蛋”的问题,着急也没用。

第二点呢,就是工艺节点的差异,现在英伟达已经用上了4纳米工艺,晶体管的密度大约是国产GPU的两倍。晶体管密度高,意味着芯片的功耗可以更低,性能也更强劲,这一点直接关系到GPU的算力极限。

目前国产GPU还主要采用7纳米工艺,要想赶上,得向5纳米、甚至是3纳米推进。

虽然咱们已经掌握了5纳米技术,但大部分产线优先供手机和电脑的SoC芯片,GPU没啥用,所以在工艺上至少比人家落后一到两代。

第三个问题得说供应链的限制,英伟达能在全球范围内挑选最顶尖的供应商,比如说HBM内存,它已经采用了HBM3E,连HBM4都开始送样进行测试了。

国产GPU由于半导体管控,主要还得依靠HBM2和HBM2E,即使HBM3和HBM3E在推进,也至少落后一代。

别小看这个世代的差距,HBM内存的速度一旦提高,直接关系到AI大模型训练的效率,内存快,数据传输就顺畅,训练时间自然缩短,赶不上这一步的话,整体性能就很容易被甩开一大截。

按照目前的节奏,十年内要追上英伟达,说实话挺难的,这更像是一道“追赶难题”。

咱们都清楚英伟达的动作挺快的,可咱们自己的发展还得考虑供应链啥的扯不清的变数,比如国产的UV设备啥时候能稳定供应、真正上线,没人敢打包票。而英伟达那边,却能随心所欲用最先进的UV设备,不断升级工艺,走得快得多。

再说了,单卡的性能要提升,可比集群之间的互联互通难得多。只有单张显卡的实力真硬了,才算是真正有底气去“追平”,别光靠“堆数量”取胜。

不过也别太灰心,中国拥有全球最大的AI市场和最庞大的算力布局,这正是我们最关键的优势所在。

实际上,即使现在把英伟达的GPU从国内的算力中心中去掉,训练和推理大模型依旧照样能搞定。这也让我们对“没有英伟达也能玩得转”充满了信心,这在几年前还想都不敢想呢。

整体推算,未来十年内国产GPU差不多能追上英伟达,问题也就没那么大啦。

黄仁勋那句“只差几纳秒”,其实更像是一种客套的夸奖,英伟达可不会就此止步,它在AI时代的技术潜力还远远没有全部释放出来。

现在我们已经实现了“可用”,这已经算是一大突破了。接下去的目标,就是一点点缩小差距,把“追平”从原本的期待变成真的事情。

现在的咱们,已经甩开了“没有英伟达不行”的难题,接下来只需要点耐性,把每个阶段的差距一点点缩小,终究有一天,国产GPU能真正和英伟达并驾齐驱。

#砺算科技##燧原科技##壁仞科技##沐曦股份##摩尔线程#
全部评论

相关推荐

投递新易盛等公司10个岗位
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务