#

BERT

#
1210次浏览 2人互动
此刻你想和大家分享什么
热门 最新
BERT面试高频知识点:3分钟速记
别再死记硬背 BERT 了,面试官更想听你讲明白它为什么有效。我整理一版 BERT 高频答法,3分钟速记:1)BERT 是什么?BERT = Bidirectional Encoder Representations from Transformers,本质是多层 Transformer Encoder 堆叠的预训练语言模型。2)为什么它当年这么强?核心是双向上下文建模。- GPT(早期)主要是单向语言建模- BERT 能同时看左右上下文,更适合理解类任务(分类、匹配、抽取)3)输入怎么构成?输入向量 = Token Embedding + Segment Embedding + Position Embedding- [CLS]:句级表示,常用于分类- [SEP]:句子分隔4)两个预训练任务(面试必问)- MLM(Masked Language Model):随机 mask 15% token 预测原词- 80% -> [MASK]- 10% -> 随机词- 10% -> 保持原词- NSP(Next Sentence Prediction):判断句子B是否是句子A的下一句5)怎么落地到下游任务?预训练后加任务头微调:文本分类、NER、问答等。面试30秒答法:BERT 的关键是双向建模;输入由 token/segment/position 三部分组成;预训练靠 MLM+NSP;下游通过微调完成具体任务。想看的话,我下一条发《BERT vs GPT 面试一分钟对比版》。
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务