首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
张不惑_
东北师范大学 Java
发布于辽宁
关注
已关注
取消关注
原来大家喜欢这种文章风格
@张不惑_:
老婆问我:“大模型的参数到底是什么东西?”
最近DeepSeek很火,老婆问我:“大模型的参数到底是什么东西?”我:所谓参数,参数,参天之数。其实参数本身就是一个数值,可能其中一个是3.123456789,另一个是-0.0009527。以DeepSpeek-R1最大版本为例,它有671B个参数(B代表十亿)。你可以把这些参数想象成一张巨大的网格,每个网格中都存储着一个数值。一个大模型通常包含几千亿个参数,这些参数占据了模型体积的90%以上。她听完更懵了:“一堆数字,凭什么能回答各种问题?”但凡你学习过初中数学,不是九年义务教育的漏网之鱼,你就应该知道:现在我们来拟合一条直线,假如你知道 a 和 b,那你就是这条直线的神,只要输入 x,你就能立刻求出 y。换句话说,这两个参数已经完整描述了这条直线的分布规律。我们画个图,假设有这样一条直线: y ↑10 | * 8 | * 6 | * 4 | * 2 | * 0 +------------------→ x 0 1 2 3 4 如果我们已知这条直线上的两个点 (1,2) 和 (3,6),就可以计算出 a = 2, b = 0,得出公式 y = 2x。从此以后,无论给你多少个 x,你都能快速求出 y。这意味着直线上的点分布规律被压缩在这两个小小的参数之中。这就是 “拟合” 的概念——用少量参数来概括大量数据的分布规律。那么,大模型是怎么回事?其实本质上和直线拟合的思想是一样的!不同的是,我们拟合的不再是一条直线,而是这个世界上已知的文本、图片、声音的分布规律。现实世界中这些数据的分布规律要比一条直线的分布规律复杂得多,大模型要把这些复杂的分布规律压缩到大量的参数里。所以需要更复杂的拟合方法,为了捕捉这些复杂规律,大模型采用了诸如自注意力机制、反向传播算法、Transformer 架构等先进的技术和方法。这些方法帮助模型更好地学习数据之间的关系,从而需要成百上千亿个参数来存储和表达所学到的复杂模式。自注意力机制(Self-Attention):让模型学会关注重要的词,比如“我爱吃苹果”和“苹果手机”中的“苹果”意思不一样。反向传播算法(Backpropagation):模型通过不断试错,调整参数,让预测结果越来越准确。Transformer 架构:这是大模型的核心结构,能高效处理复杂的文本数据。参数是咋来的?参数不是凭空冒出来的,而是通过“训练”得到的。训练的过程就像是你拿着一堆数据(比如文字、图片、视频),让模型去“学习”这些数据的规律。模型一开始啥也不懂,参数都是随机初始化的,可能全是0.000001或者-0.123456这样的乱七八糟的数。然后,模型通过不断地试错,调整这些参数,直到它能很好地拟合数据的规律。举个例子,假如你有一堆点(x, y),你想用一条直线y = ax + b去拟合这些点。一开始,a和b是随机值,可能拟合出来的直线歪七扭八。然后,你通过计算误差(比如实际y值和预测y值的差距),调整a和b的值,让直线越来越接近这些点。最终,你找到了最合适的a和b,这条直线就能很好地描述这些点的分布规律了。大模型也是这么干的,只不过它拟合的不是一条直线,而是文字、图片、视频的复杂规律。所以,它需要的参数数量也爆炸式增长,从几个变成了几千亿个。为什么需要这么多参数?为啥大模型需要这么多参数?难道不能像y = ax + b一样,用几个参数搞定吗?答案肯定是:不行的!因为现实世界中的数据太复杂。举个例子,假如你有一张猫的图片,图片里有猫的耳朵、眼睛、胡子、毛色等等。这些特征之间的关系非常复杂,不是一条直线或者一个简单公式能描述的。所以,大模型需要用更多的参数去捕捉这些复杂的规律。再比如,文字数据。一句话里的每个词都可能和前面的词有关系,甚至和后面的词也有关系。这种关系不是简单的“线性”关系,而是非常复杂的“非线性”关系。所以,大模型需要用更多的参数去捕捉这些复杂的依赖关系。大模型的核心思想无论模型多复杂,核心其实就两点:模型参数(存储规律的那堆数字)训练方法(找到最佳参数的数学方法)本质上,AI 大模型就是用数学的方法,把世界的分布规律压缩成一堆参数,它们是通过复杂的拟合方法从大量数据中提取出来的规律。这些参数和拟合方法共同构成了大模型的核心,使得它能够处理复杂的任务,比如自然语言理解、图像识别等。无论是简单的线性拟合,还是复杂的深度学习模型,其背后的思想都是相通的:通过参数和拟合方法来捕捉数据的分布规律。所以,下次听到“大模型有几千亿个参数”时,你可以想象:这就像是一张巨大的网格,每个网格里都存储着一个数,而这些数共同描述了现实世界的复杂规律。
点赞 5
评论 2
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
07-30 11:47
门头沟学院 前端工程师
被面试官一句话问懵了
“你能再详细解释一下你设计这部分的考量逻辑吗?”主包完全没往这方面考虑啊,直接愣在了原地,估计凉了
点赞
评论
收藏
分享
07-30 12:11
苏州大学 设计
尽管就业形势很差,但不建议你实习太多
作为一个中大厂实习/校招都参与的面试官,最近看到了很多同学的简历上有多段实习,最多的有6段(真佩服你们的精力旺盛😂)确实被吓到了!想和大家聊聊我们在招人的时候,真的希望经历越多越好吗?答案是:打咩🙅,2-3段足矣。现在招人确实不像原来,即便没有相关经历,也有offer的可能。但是现在公司用人标准是综合考虑的,主要在岗位匹配度、稳定性以及和现在团队的适配度。匹配度:就是你有没有硬实力,岗位和你的经历匹配度达到多少,如果你6个实习来自各种方向,那面试官会觉得没有想清楚要做什么。稳定性:我们更喜欢在一家公司呆的久的同学,说明你性格相对稳定,抗压能力强且你对公司业务了解更深。适配度:软实力,这个有...
一个真正的_Man:
2-3=-1,那我0实习应该也比较契合,hr要不要考虑考虑我
简历中的项目经历要怎么写
点赞
评论
收藏
分享
07-01 01:25
辽宁科技大学 Java
26届苍穹外卖可以找到实习吗?
我知道简历内容有点空白,但我只学到苍穹外卖没什么可写的了,还能找到实习吗?要求不高2k以就满足了
湫湫湫不会java:
在牛客刷到了最潦草的简历了
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
百度提前批,三面被推迟一周,喜提秋招第一凉
7614
2
...
虾皮秋招一面
3255
3
...
百度提前批 三面
2800
4
...
他拿大厂SSP Offer打牌是什么概念啊?25届双非之光
2728
5
...
小鹏offer
1559
6
...
被猿辅导挂了简历,但我想说...
1442
7
...
虾皮一面凉经
1375
8
...
最强本科✌
1347
9
...
上班一周,工资还没拿,先欠公司两千
1296
10
...
大学四年,我感觉我像个“孤勇者”
1236
创作者周榜
更多
正在热议
更多
#
简历上的经历如何包装
#
29584次浏览
821人参与
#
秋招被确诊为……
#
164162次浏览
752人参与
#
中兴秋招
#
205766次浏览
2296人参与
#
工作中哪个瞬间让你想离职
#
63708次浏览
569人参与
#
你最希望上岸的公司是?
#
135226次浏览
706人参与
#
和同事相处最忌讳的是__
#
24472次浏览
244人参与
#
25届网易互娱暑实进度
#
78430次浏览
702人参与
#
虾皮求职进展汇总
#
249468次浏览
1856人参与
#
投格力的你,拿到offer了吗?
#
86797次浏览
583人参与
#
2022毕业即失业取暖地
#
102716次浏览
662人参与
#
2022毕业生求职现身说法
#
89298次浏览
700人参与
#
秋招OC许愿
#
327821次浏览
2450人参与
#
你最近一次加班是什么时候?
#
71005次浏览
350人参与
#
26届的你,投了哪些公司?
#
45344次浏览
497人参与
#
你的秋招第一面感觉怎么样
#
76936次浏览
592人参与
#
柠檬微趣工作体验
#
6743次浏览
40人参与
#
你遇到最难的面试题目是_
#
16698次浏览
201人参与
#
我对___祛魅了
#
48595次浏览
441人参与
#
地平线求职进展汇总
#
52657次浏览
370人参与
#
研究所VS国企,该如何选
#
194851次浏览
1819人参与
#
如果校招重来我最想改变的是
#
271934次浏览
2853人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务