首页 > 试题广场 >

一位深度学习工程师正在分析一个标准Transformer模型

[不定项选择题]

一位深度学习工程师正在分析一个标准Transformer模型的性能瓶颈和训练动态。在深入研究其基础运算单元时，得出了以下几个结论，请判断哪些结论

在计算softmax时，为了防止因输入值过大导致exp()函数结果溢出，一个标准的实现技巧是先从所有输入值中减去它们的最大值，这个操作在数学上是等价的，且能有效提升的领域包括

在LayerNorm中，可学习的仿射变换参数gamma（增益）和beta（偏置）的主要作用是严格维持归一化后的数据分布为标准正态分布（均值为0，方差为1），从而加速模型收敛。

采用子词（subword）分词的Tokenizer，其词汇表大小（V）直接决定了模型输入端嵌入层（Embedding Layer）的参数量。一个拥有64000个词元的词汇表和一个512维的d_model，其嵌入层的参数数量级约为3200万。

当序列长度N远大于模型的隐藏维度d_model时（例如在处理长文档时），自注意力机制中与N^2相关的计算会成为主要的计算瓶颈；反之，当N较小时，前馈网络（FFN）的计算量通常会占据主导地位。

查看正确选项

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

来自：2026年-华为-3月...

难度：

0条回答 2收藏 6浏览

扫一扫，把题目装进口袋