1. BERT 模型的结构答:BERT 本质上是一个 Encoder-only 的 Transformer。输入由 Token Embedding、Segment Embedding、Position Embedding 三部分相加得到,然后经过多层 Transformer Encoder。以 BERT-Base 为例,模型参数通常是:层数 (L=12),隐藏维度 (H=768),注意力头数 (A=12),前馈层维度 (4H=3072)。BERT-Large 则是 (L=24, H=1024, A=16)。每层 Encoder 的结构是:Multi-Head Self-Attention -&...