美团 腾讯 百度 淘天 大模型相关 日常实习面经

一些答的不好的八股问题总结 忘了很多 想到再更新答案和问题 
1. llama 7b 为什么比其他基座好,与gpt3比做了什么改进:数据上质量更高,结构上用的RoPE+SwiGLUE
2. GQA可以给训练加速吗:不可以,
3. 检索增强怎么做的:
4. 长度外推除了ROPE还有什么方法(长度外推一个是训练时数据没那么长导致的一些问题,一个是计算复杂度太高没那么多资源):局部注意力(平移不变性,感受野,window),插值,flashattetion, GQA
5. Baichuan和chatglm2有什么不同,数据上,训练上,结构上
6. Visualglm图片怎么处理的:blip-qformer
7. Transformer结构,一层层讲:
8. Visualbert什么结构:前text后visual,用faster-cnn和resnet-50提取视觉特征
9. RLHF流程:一个actor,一个critic,一个reward model。将sft后的模型输出后生成回答,回答+答案输入RW得到分数(取最后一个token投影一下)
10. Reward model怎么训练的,损失函数是什么:
11. 提示工程的fewshot有什么做法:聚类
12. Chatglm2与1有什么区别:prefix-decoder回归casual-decoder(原因1.多轮对话用prefix-decoder需要构造多个数据来训练,而casual可以直接用整个多轮对话数据,等效,且各个对话的权重不一样)(这个改动导致了2维编码的去除);gelu->swiglu;RMSnorm;flashattention;MQA
13. Chatglm2对话权重不一样的原因:
14. 为什么chatglm系列的用ptuning比lora好:都是清华一个实验室出的,配套效果吧
15. Ptuning是怎么样做的大概讲讲:前面cocat可学习参数,多了一个MLP层,代码中在k,v矩阵中concat矩阵参数
16. Lora怎么做的?为什么只调q,v矩阵或者q矩阵?别人实验这样做不代表在你这个场景下这样做就是对的?:
17. 为什么模型都聚焦于decoder-only而不是encoder-only或者encoder-decoder:
18. Self-consistency是什么
 
#面经##日常实习##日常实习许愿##八股##算法#
全部评论
秋招感觉有project和paper的话基本不问八股了
点赞 回复
分享
发布于 2023-10-27 13:07 北京
国内大模型岗位多吗
点赞 回复
分享
发布于 2023-10-30 10:05 湖北
联易融
校招火热招聘中
官网直投
woc 这么难 我有一半都不咋会
点赞 回复
分享
发布于 01-14 21:10 北京
GQA为什么不可以加快训练?
点赞 回复
分享
发布于 04-17 21:59 北京

相关推荐

头像
不愿透露姓名的神秘牛友
04-10 11:37
点赞 评论 收藏
转发
25 146 评论
分享
牛客网
牛客企业服务