BERT面试高频知识点:3分钟速记

别再死记硬背 BERT 了,面试官更想听你讲明白它为什么有效。

我整理一版 BERT 高频答法,3分钟速记:

1)BERT 是什么?
BERT = Bidirectional Encoder Representations from Transformers,本质是多层 Transformer Encoder 堆叠的预训练语言模型。

2)为什么它当年这么强?
核心是双向上下文建模。
- GPT(早期)主要是单向语言建模
- BERT 能同时看左右上下文,更适合理解类任务(分类、匹配、抽取)

3)输入怎么构成?
输入向量 = Token Embedding + Segment Embedding + Position Embedding
- [CLS]:句级表示,常用于分类
- [SEP]:句子分隔

4)两个预训练任务(面试必问)
- MLM(Masked Language Model):随机 mask 15% token 预测原词
  - 80% -> [MASK]
  - 10% -> 随机词
  - 10% -> 保持原词
- NSP(Next Sentence Prediction):判断句子B是否是句子A的下一句

5)怎么落地到下游任务?
预训练后加任务头微调:文本分类、NER、问答等。

面试30秒答法:
BERT 的关键是双向建模;输入由 token/segment/position 三部分组成;预训练靠 MLM+NSP;下游通过微调完成具体任务。

想看的话,我下一条发《BERT vs GPT 面试一分钟对比版》。

#AI面试问题分享# #面试___岗的必刷题单# #BERT# #Transformer# #算法面试#
全部评论

相关推荐

SHC2:春招先狠狠投递,然后你看看能不能申请香港新加坡的一年制master,花不了多少钱,或者现在赶紧去刷一段实习。HR专业考研没必要
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务