度小满大模型实习岗一轮面试

llama的结构,自己部署训练的时候用了多大的模型 几张卡
使用RAG向量数据库的时候有什么额外的处理,wordembedding用的什么模型
问了一下为什么目前主流的模型都是用的decoder-only结构
问了问项目的内容,具体模块为什么这么使用

代码让写了一下self-attention模块,没有torch库,可以写一下伪代码
问了一下attention模块里的mask应该加在哪里,怎么加,mask是什么形式,如果加在softmax之前,值应该怎么设置

然后问了考官一些问题
全部评论

相关推荐

06-16 19:16
已编辑
门头沟学院 客户端其它
初恋网友:后端劝退第一人
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务