BERT面试高频知识点:3分钟速记
别再死记硬背 BERT 了,面试官更想听你讲明白它为什么有效。
我整理一版 BERT 高频答法,3分钟速记:
1)BERT 是什么?
BERT = Bidirectional Encoder Representations from Transformers,本质是多层 Transformer Encoder 堆叠的预训练语言模型。
2)为什么它当年这么强?
核心是双向上下文建模。
- GPT(早期)主要是单向语言建模
- BERT 能同时看左右上下文,更适合理解类任务(分类、匹配、抽取)
3)输入怎么构成?
输入向量 = Token Embedding + Segment Embedding + Position Embedding
- [CLS]:句级表示,常用于分类
- [SEP]:句子分隔
4)两个预训练任务(面试必问)
- MLM(Masked Language Model):随机 mask 15% token 预测原词
- 80% -> [MASK]
- 10% -> 随机词
- 10% -> 保持原词
- NSP(Next Sentence Prediction):判断句子B是否是句子A的下一句
5)怎么落地到下游任务?
预训练后加任务头微调:文本分类、NER、问答等。
面试30秒答法:
BERT 的关键是双向建模;输入由 token/segment/position 三部分组成;预训练靠 MLM+NSP;下游通过微调完成具体任务。
想看的话,我下一条发《BERT vs GPT 面试一分钟对比版》。
#AI面试问题分享# #面试___岗的必刷题单# #BERT# #Transformer# #算法面试#
我整理一版 BERT 高频答法,3分钟速记:
1)BERT 是什么?
BERT = Bidirectional Encoder Representations from Transformers,本质是多层 Transformer Encoder 堆叠的预训练语言模型。
2)为什么它当年这么强?
核心是双向上下文建模。
- GPT(早期)主要是单向语言建模
- BERT 能同时看左右上下文,更适合理解类任务(分类、匹配、抽取)
3)输入怎么构成?
输入向量 = Token Embedding + Segment Embedding + Position Embedding
- [CLS]:句级表示,常用于分类
- [SEP]:句子分隔
4)两个预训练任务(面试必问)
- MLM(Masked Language Model):随机 mask 15% token 预测原词
- 80% -> [MASK]
- 10% -> 随机词
- 10% -> 保持原词
- NSP(Next Sentence Prediction):判断句子B是否是句子A的下一句
5)怎么落地到下游任务?
预训练后加任务头微调:文本分类、NER、问答等。
面试30秒答法:
BERT 的关键是双向建模;输入由 token/segment/position 三部分组成;预训练靠 MLM+NSP;下游通过微调完成具体任务。
想看的话,我下一条发《BERT vs GPT 面试一分钟对比版》。
#AI面试问题分享# #面试___岗的必刷题单# #BERT# #Transformer# #算法面试#
全部评论
相关推荐
02-09 20:08
山东大学 组织发展 SHC2:春招先狠狠投递,然后你看看能不能申请香港新加坡的一年制master,花不了多少钱,或者现在赶紧去刷一段实习。HR专业考研没必要
点赞 评论 收藏
分享