腾讯混元大模型算法一面

1.能否解释Transformer使用多头注意力机制的动机?
2.如果只使用单头注意力,可能会在哪些方面受限?
3.请谈谈Transformer是如何实现并行化计算的。在计算注意力得分时,为什么通常要对点积结果进行缩放(即除以根号dk)?
4.在推荐系统的模型适配中,对比LoRA与全参数微调,它们各自更适合什么样的场景?
5.有什么优势和代价?在推荐系统中引入RAG(检索增强生成)主要是为了解决哪些问题?
6.通常如何构建与更新其背后的知识库?
7.在RAG实践中,选择BGE作为嵌入模型主要出于哪些考量?后续的向量检索索引(如FAISS)是如何构建和优化的?
8.对于RAG中的文档,通常采用哪些策略进行分块(chunk)?
9.如何平衡块的大小与信息完整性?GraphRAG适用于解决哪些传统RAG难以处理的问题场景?
10.你的项目中利用LangGraph来编排多工具调用链路。与纯Prompt工程方法相比,这种框架带来了哪些核心优势?
11.当输入的文本长度超出模型的上下文窗口时,目前有哪些主流的处理方案或模型架构来应对?
全部评论

相关推荐

6.前端的话是怎么平时怎么学习的?7.项目有没有可以优化的地方?8.你为什么选择前端呢?9. JS 里面的原型链,原型链的顶层是什么10.闭包,你怎么理解?11.JS 防抖和节流12.实现一个防抖的函数13.CSS 盒模型14.水平垂直居中方法?15.display Flex 有哪些属性?16.EM 和 REM 区别?VH 和 VW ?17.设计一个响应式的页面,左侧固定宽度,右侧铺满整个屏幕,怎么做?18.Vue 里面有哪些生命周期?为什么要设计这些生命周期呢?19.Vue 有哪些指令20.两个组件怎么做数据交流21.watch 怎么实现的?22.HTTP 和 HTTPS 有什么区别?假如我获取到了TLS 的证书的话。我能劫持这个 HTTPS 的通信信息吗?23. Webpack 的 loader 和 plugin 有什么区别?24.为什么vite的打包很快?25.算法 零钱兑换(时间复杂度是多少,还能什么方法实现)26.学前端大概学了多久?27.专业是主要是学什么的28.写项目的过程中有涉及到使用一些 AI coding 的方式去写吗?29.在你学习的过程中,假如遇到一个比较难的问题,你会怎么快速去了解它并且掌握?当天被腾讯挂了,晚上就被这个部门捞起来了,本来还很开心,结果面完第二天又给我挂了,明明基本都回答出来了,我也觉得我表现的挺好的,不懂什么意思,面试的时候问我能不能接受加班到12点我也说可以,搞不懂,好伤心
查看24道真题和解析
点赞 评论 收藏
分享
评论
3
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务