预训练语言模型:BERT到ALBERT全解析
预训练语言模型概述
预训练语言模型(Pre-trained Language Models, PLMs)通过大规模无监督学习获取通用语言表示,再通过微调适配下游任务。Encoder-only架构以双向上下文建模为核心,典型代表包括BERT、RoBERTa和ALBERT,广泛应用于文本分类、实体识别等任务。
BERT:双向编码器代表
核心架构
基于Transformer的Encoder堆叠,采用多层双向自注意力机制。输入层融合词嵌入(Token Embeddings)、段嵌入(Segment Embeddings)和位置嵌入(Position Embeddings),通过[CLS]和[SEP]标记处理句子关系。
预训练任务
- 掩码语言建模(MLM):随机遮蔽15%的输入词,预测被遮蔽词,实现双向上下文学习。
公式示例:
$$ P(w_i | w_{1..i-1}, w_{i+1..n}) = \text{Softmax}(E \cdot h_i) $$
其中$E$为词嵌入矩阵,$h_i$为第$i$个位置的隐藏状态。 - 下一句预测(NSP):判断两个句子是否连续,提升句子级表示能力。
优化细节
- 动态掩码策略:每次训练对同一句子生成不同掩码模式。
- 全词掩码(Whole Word Masking):针对中文等语言,遮蔽完整词语而非子词。
RoBERTa:BERT的优化版本
改进点
- 训练数据与时长:扩大数据规模至160GB,延长训练步数,消除BERT训练不足的问题。
- 移除NSP任务:实验证明NSP对性能提升有限,仅保留MLM任务。
- 更大批次训练:使用8K批次大小,提升训练稳定性。
关键实验结论
- 动态掩码比静态掩码效果提升约1-2%的GLUE分数。
- 训练时间延长至500K步时,模型在下游任务中表现显著优化。
ALBERT:轻量化与参数效率
参数压缩技术
- 因式分解嵌入参数:将词嵌入矩阵分解为$V \times E$和$E \times H$($E \ll H$),减少参数量。
示例:当$V=30000, H=768, E=128$时,参数量从23M降至3.84M。 - 跨层参数共享:所有Transformer层共享权重,大幅降低模型体积。
创新预训练任务
- 句子顺序预测(SOP):替换NSP,要求模型判断句子顺序是否调换,强化句子连贯性理解。
性能对比
- ALBERT-base参数量仅12M,达到BERT-base(110M)90%的性能,训练速度提升1.5倍。
对比与选型建议
模型对比表
| 特性 | BERT | RoBERTa | ALBERT |
|--------------|---------------|---------------|---------------|
| 参数量 | 110M (base) | 125M (base) | 12M (base) |
| 训练数据 | 16GB | 160GB | 16GB |
| 关键任务 | MLM + NSP | MLM | MLM + SOP |
应用场景
- 资源受限环境:优先选择ALBERT,平衡性能与效率。
- 高精度需求:RoBERTa在多数任务中表现最优,但需充足算力支持。
- 兼容性要求:BERT的广泛生态支持更易于部署。
实践建议
微调技巧
- 学习率设置:预训练阶段学习率(1e-4)应高于微调阶段(2e-5)。
- 层选择:最后一层隐藏状态未必最优,可尝试加权平均中间层输出。
代码示例(PyTorch)
from transformers import BertModel
model = BertModel.from_pretrained('bert-base-uncased')
inputs = tokenizer("Example text", return_tensors="pt")
outputs = model(**inputs) # 获取最后一层隐藏状态
通过理解架构差异与优化方向,可针对性选择模型并优化下游任务性能。
BbS.okapop041.sbs/PoSt/1122_465224.HtM
BbS.okapop042.sbs/PoSt/1122_782538.HtM
BbS.okapop043.sbs/PoSt/1122_798092.HtM
BbS.okapop044.sbs/PoSt/1122_298070.HtM
BbS.okapop045.sbs/PoSt/1122_872319.HtM
BbS.okapop046.sbs/PoSt/1122_704884.HtM
BbS.okapop047.sbs/PoSt/1122_359966.HtM
BbS.okapop048.sbs/PoSt/1122_962971.HtM
BbS.okapop049.sbs/PoSt/1122_333342.HtM
BbS.okapop050.sbs/PoSt/1122_695089.HtM
BbS.okapop041.sbs/PoSt/1122_754479.HtM
BbS.okapop042.sbs/PoSt/1122_444563.HtM
BbS.okapop043.sbs/PoSt/1122_634203.HtM
BbS.okapop044.sbs/PoSt/1122_831938.HtM
BbS.okapop045.sbs/PoSt/1122_414128.HtM
BbS.okapop046.sbs/PoSt/1122_583990.HtM
BbS.okapop047.sbs/PoSt/1122_180237.HtM
BbS.okapop048.sbs/PoSt/1122_860302.HtM
BbS.okapop049.sbs/PoSt/1122_478851.HtM
BbS.okapop050.sbs/PoSt/1122_652377.HtM
BbS.okapop051.sbs/PoSt/1122_388254.HtM
BbS.okapop052.sbs/PoSt/1122_556722.HtM
BbS.okapop053.sbs/PoSt/1122_824340.HtM
BbS.okapop054.sbs/PoSt/1122_553375.HtM
BbS.okapop055.sbs/PoSt/1122_440093.HtM
BbS.okapop056.sbs/PoSt/1122_250606.HtM
BbS.okapop057.sbs/PoSt/1122_969531.HtM
BbS.okapop058.sbs/PoSt/1122_586580.HtM
BbS.okapop059.sbs/PoSt/1122_086716.HtM
BbS.okapop060.sbs/PoSt/1122_828369.HtM
BbS.okapop051.sbs/PoSt/1122_140239.HtM
BbS.okapop052.sbs/PoSt/1122_922425.HtM
BbS.okapop053.sbs/PoSt/1122_658649.HtM
BbS.okapop054.sbs/PoSt/1122_528301.HtM
BbS.okapop055.sbs/PoSt/1122_098895.HtM
BbS.okapop056.sbs/PoSt/1122_346118.HtM
BbS.okapop057.sbs/PoSt/1122_048792.HtM
BbS.okapop058.sbs/PoSt/1122_251632.HtM
BbS.okapop059.sbs/PoSt/1122_026427.HtM
BbS.okapop060.sbs/PoSt/1122_728143.HtM
BbS.okapop051.sbs/PoSt/1122_814453.HtM
BbS.okapop052.sbs/PoSt/1122_693021.HtM
BbS.okapop053.sbs/PoSt/1122_299789.HtM
BbS.okapop054.sbs/PoSt/1122_566934.HtM
BbS.okapop055.sbs/PoSt/1122_670033.HtM
BbS.okapop056.sbs/PoSt/1122_035971.HtM
BbS.okapop057.sbs/PoSt/1122_178187.HtM
BbS.okapop058.sbs/PoSt/1122_363997.HtM
BbS.okapop059.sbs/PoSt/1122_538764.HtM
BbS.okapop060.sbs/PoSt/1122_162823.HtM
BbS.okapop051.sbs/PoSt/1122_158846.HtM
BbS.okapop052.sbs/PoSt/1122_460616.HtM
BbS.okapop053.sbs/PoSt/1122_576845.HtM
BbS.okapop054.sbs/PoSt/1122_295591.HtM
BbS.okapop055.sbs/PoSt/1122_369333.HtM
BbS.okapop056.sbs/PoSt/1122_592671.HtM
BbS.okapop057.sbs/PoSt/1122_673287.HtM
BbS.okapop058.sbs/PoSt/1122_603663.HtM
BbS.okapop059.sbs/PoSt/1122_102018.HtM
BbS.okapop060.sbs/PoSt/1122_354732.HtM
BbS.okapop051.sbs/PoSt/1122_828651.HtM
BbS.okapop052.sbs/PoSt/1122_424905.HtM
BbS.okapop053.sbs/PoSt/1122_436032.HtM
BbS.okapop054.sbs/PoSt/1122_783864.HtM
BbS.okapop055.sbs/PoSt/1122_032011.HtM
BbS.okapop056.sbs/PoSt/1122_292043.HtM
BbS.okapop057.sbs/PoSt/1122_786403.HtM
BbS.okapop058.sbs/PoSt/1122_938652.HtM
BbS.okapop059.sbs/PoSt/1122_520978.HtM
BbS.okapop060.sbs/PoSt/1122_588238.HtM
BbS.okapop051.sbs/PoSt/1122_466592.HtM
BbS.okapop052.sbs/PoSt/1122_367576.HtM
BbS.okapop053.sbs/PoSt/1122_862027.HtM
BbS.okapop054.sbs/PoSt/1122_071109.HtM
BbS.okapop055.sbs/PoSt/1122_706898.HtM
BbS.okapop056.sbs/PoSt/1122_731100.HtM
BbS.okapop057.sbs/PoSt/1122_113333.HtM
BbS.okapop058.sbs/PoSt/1122_349992.HtM
BbS.okapop059.sbs/PoSt/1122_691685.HtM
BbS.okapop060.sbs/PoSt/1122_585391.HtM

