度小满大模型实习岗一轮面试
llama的结构,自己部署训练的时候用了多大的模型 几张卡
使用RAG向量数据库的时候有什么额外的处理,wordembedding用的什么模型
问了一下为什么目前主流的模型都是用的decoder-only结构
问了问项目的内容,具体模块为什么这么使用
代码让写了一下self-attention模块,没有torch库,可以写一下伪代码
问了一下attention模块里的mask应该加在哪里,怎么加,mask是什么形式,如果加在softmax之前,值应该怎么设置
然后问了考官一些问题
使用RAG向量数据库的时候有什么额外的处理,wordembedding用的什么模型
问了一下为什么目前主流的模型都是用的decoder-only结构
问了问项目的内容,具体模块为什么这么使用
代码让写了一下self-attention模块,没有torch库,可以写一下伪代码
问了一下attention模块里的mask应该加在哪里,怎么加,mask是什么形式,如果加在softmax之前,值应该怎么设置
然后问了考官一些问题
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享