一些答的不好的八股问题总结 忘了很多 想到再更新答案和问题 1. llama 7b 为什么比其他基座好,与gpt3比做了什么改进:数据上质量更高,结构上用的RoPE+SwiGLUE2. GQA可以给训练加速吗:不可以,3. 检索增强怎么做的:4. 长度外推除了ROPE还有什么方法(长度外推一个是训练时数据没那么长导致的一些问题,一个是计算复杂度太高没那么多资源):局部注意力(平移不变性,感受野,window),插值,flashattetion, GQA5. Baichuan和chatglm2有什么不同,数据上,训练上,结构上6. Visualglm图片怎么处理的:blip-qformer7. Transformer结构,一层层讲:8. Visualbert什么结构:前text后visual,用faster-cnn和resnet-50提取视觉特征9. RLHF流程:一个actor,一个critic,一个reward model。将sft后的模型输出后生成回答,回答+答案输入RW得到分数(取最后一个token投影一下)10. Reward model怎么训练的,损失函数是什么:11. 提示工程的fewshot有什么做法:聚类12. Chatglm2与1有什么区别:prefix-decoder回归casual-decoder(原因1.多轮对话用prefix-decoder需要构造多个数据来训练,而casual可以直接用整个多轮对话数据,等效,且各个对话的权重不一样)(这个改动导致了2维编码的去除);gelu->swiglu;RMSnorm;flashattention;MQA13. Chatglm2对话权重不一样的原因:14. 为什么chatglm系列的用ptuning比lora好:都是清华一个实验室出的,配套效果吧15. Ptuning是怎么样做的大概讲讲:前面cocat可学习参数,多了一个MLP层,代码中在k,v矩阵中concat矩阵参数16. Lora怎么做的?为什么只调q,v矩阵或者q矩阵?别人实验这样做不代表在你这个场景下这样做就是对的?:17. 为什么模型都聚焦于decoder-only而不是encoder-only或者encoder-decoder:18. Self-consistency是什么 
点赞 25
评论 4
全部评论

相关推荐

点赞 评论 收藏
转发
点赞 收藏 评论
分享
牛客网
牛客企业服务