在计算softmax时,为了防止因输入值过大导致exp()函数结果溢出,一个标准的实现技巧是先从所有输入值中减去它们的最大值,这个操作在数学上是等价的,且能有效提升的领域包括
在LayerNorm中,可学习的仿射变换参数gamma(增益)和beta(偏置)的主要作用是严格维持归一化后的数据分布为标准正态分布(均值为0,方差为1),从而加速模型收敛。
采用子词(subword)分词的Tokenizer,其词汇表大小(V)直接决定了模型输入端嵌入层(Embedding Layer)的参数量。一个拥有64000个词元的词汇表和一个512维的d_model,其嵌入层的参数数量级约为3200万。
当序列长度N远大于模型的隐藏维度d_model时(例如在处理长文档时),自注意力机制中与N^2相关的计算会成为主要的计算瓶颈;反之,当N较小时,前馈网络(FFN)的计算量通常会占据主导地位。

这道题你会答吗?花几分钟告诉大家答案吧!