面试唠嗑时说这些大模型知识能唬住面试官(1)
(一)语言模型的发展历程
词元(Token)
1. 统计语言模型(Statistical Language Model,SLM)
通常是根据词序列中若干个连续的上下文单词来预测下一个词的出现概率,即根据一个固定长度的前缀来预测目标单词。
2. 神经语言模型(Neural Language Model,NLM)
使用神经网络来建模文本序列的生成,例如word2vec(构建了一个简化的浅层神经网络来学习分布式词表示,所学习到的词嵌入(分布式词向量)可以用作后续任务的语义特征提取器)。
3. 预训练语言模型(Pre-trained Language Model,PLM)
代表:ELMo、BERT、GPT-1
- 编码器架构适合解决自然语言理解任务(如完形填空)
- 解码器架构适合解决自然语言生成认为(如文本摘要)
预训练阶段旨在通过大规模无标注文本建立模型的基础能力,而微调阶段则使用有标注数据对模型进行特定任务的适配,从而更好地解决下游的自然语言处理任务。
4. 大语言模型(Large Language Model,LLM)
扩展法则(Scaling Law):通过规模扩展(如增加模型参数规模或数据规模)通常会带来下游任务的模型性能提升。
(二)大语言模型的能力特点
- 具有较为丰富的世界知识
- 具有较强的通用任务解决能力
- 具有较好的复杂任务推理能力
- 具有较强的人类指令遵循能力
- 具有较好的人类对齐能力
- 具有可拓展的工具使用能力
!!!下期更新“大语言模型关键技术概览”,欢迎点赞/评论/送花/订阅~
#面试问题记录##笔记##面试##大模型##牛客激励计划#
《大语言模型》阅读笔记 文章被收录于专栏
紧跟时代潮流~