作业帮NLP算法实习一面凉经
项目方面:
1、项目LLM如何微调的,数据如何注册到LLaMA Factory中?
2、项目中最大的挑战是什么?面试官认为这个项目比较简单,就问了从这个项目中学到了什么?
3、针对项目内容做了些提问,例如模型尺寸、为什么这个尺寸、内容、样本token、有没有bad case?
4、聊了一些关于LLM的Json结构化输出
5、结果的评估
八股方面:
1、1.7B模型为什么要用LoRA微调?全参微调会占用多大显存?
2、关于batch size大小与泛化性关系、以及和learn rate的关系,以及累计梯度
3、LoRA如何做初始化?
4、Transformer中Encoder和Decoder的区别和联系,以及如果单独分开的话,优缺点是什么?
5、Transformer中最核心的是Attention,Encoder中的叫Self-Attention,Decoder中的可以叫Self-Attention吗?
6、有哪些代表性的Encoder模型,因为我回答了BERT,就追问了bert的训练任务?
7、Tokenizer方法有什么?原理介绍一下。如何从自然文本映射到词汇表,即做Encode?文本中特殊的token如何处理?是要直接拆开吗?
8、为什么需要位置编码?位置编码主要特征是什么?位置编码特性是什么,或者说怎么样才是一个好的位置编码?主流位置编码,及其思路?
9、大模型中对显存的优化?模型、架构、或工程上?量化的对称量化和非对称量化?
手撕:
买股票的最好时机
1、项目LLM如何微调的,数据如何注册到LLaMA Factory中?
2、项目中最大的挑战是什么?面试官认为这个项目比较简单,就问了从这个项目中学到了什么?
3、针对项目内容做了些提问,例如模型尺寸、为什么这个尺寸、内容、样本token、有没有bad case?
4、聊了一些关于LLM的Json结构化输出
5、结果的评估
八股方面:
1、1.7B模型为什么要用LoRA微调?全参微调会占用多大显存?
2、关于batch size大小与泛化性关系、以及和learn rate的关系,以及累计梯度
3、LoRA如何做初始化?
4、Transformer中Encoder和Decoder的区别和联系,以及如果单独分开的话,优缺点是什么?
5、Transformer中最核心的是Attention,Encoder中的叫Self-Attention,Decoder中的可以叫Self-Attention吗?
6、有哪些代表性的Encoder模型,因为我回答了BERT,就追问了bert的训练任务?
7、Tokenizer方法有什么?原理介绍一下。如何从自然文本映射到词汇表,即做Encode?文本中特殊的token如何处理?是要直接拆开吗?
8、为什么需要位置编码?位置编码主要特征是什么?位置编码特性是什么,或者说怎么样才是一个好的位置编码?主流位置编码,及其思路?
9、大模型中对显存的优化?模型、架构、或工程上?量化的对称量化和非对称量化?
手撕:
买股票的最好时机
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看8道真题和解析