首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
把 Transformer Decoder‑only 的
[问答题]
把 Transformer / Decoder‑only 的整体结构过一遍,各个组件分别在干什么,有哪些常见变体。
添加笔记
求解答(0)
邀请回答
收藏(58)
分享
纠错
2个回答
添加回答
2
疯奇
token embedding(将离散的token id投影到连续的向量空间上)-> 位置编码(由于transformer的置换不变性导致需要pos ,这也是transformer能够高度并行化的原因之一,现在多用旋转编码RoPE) -> 多头自注意力机制(由于是decoder-only故而这里应该是带mask的, 通过mask实现单向,多头是用来提取多个子空间中的特征,后来有GQA,GQA中把不同的head分组,然后组内共享一个query矩阵,目的是用较低程度的表达能力的下降换取显存负载的降低以及计算效率的提高)->前馈神经网络(FFN,进行非线性的特征变化,提升表达能力,最新的FFN与transformer中的差距主要体现在激活函数上:LLM中多使用SwiGLU,该激活函数输出0均值,且平滑可导,能加速收敛的进行,且梯度消失与梯度爆炸程度轻)-> 残差连接与正则化(避免过拟合,残差连接使得网络能更加深,正则化有LayerNorm, BatchNorm, GroupNorm, RMSNorm, PowerNorm)->输出层(把最后一层的输出映射回词表,生成预测下一个词的概率分布)
发表于 2025-10-17 21:23:56
回复(0)
0
牛客936040679号
多头注意力机制:根据不同空间和不同维度得到不同的特征。带掩码的多头注意力机制:降低训练目标值对预测结果造成的影响,以及增加正类的概率,前馈神经网络:进行特征融合
发表于 2025-09-11 19:53:53
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
来自:
2025年-华为-AI...
难度:
2条回答
58收藏
527浏览
热门推荐
相关试题
强化学习后训练里,为何选择 PPO...
评论
(0)
来自
2025年-华为-AI算...
给我讲讲多头注意力的计算流程与复杂...
评论
(0)
来自
2025年-华为-AI算...
不借助深度学习框架,直接用 num...
评论
(0)
来自
2025年-华为-AI算...
什么是梯度爆炸和梯度消失?它们的原...
评论
(0)
来自
2025年-华为-AI算...
给我讲讲你设计的大模型后训练流程:...
评论
(0)
来自
2025年-华为-AI算...
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题