26校招快手大模型算法二面 1h

1.八股:RoPE(旋转位置编码)是如何用绝对位置编码实现相对位置感知的?能否从数学直觉上解释?
2.八股:vLLM 的核心原理是什么?它如何通过 PagedAttention 提升推理吞吐?
3.八股:FlashAttention v1 和 v2 的主要改进点分别是什么?它们如何减少显存访问并加速 Attention 计算?
4.八股:Qwen 在训练时采用的 “packing” 形式和“多轮对话”形式有何区别?各自对训练效率和模型能力有何影响?
5.项目:你们如何增强模型的多轮对话能力?除了增加多轮 SFT 数据,还有哪些架构或训练策略上的尝试?
6.项目:如果 RAG 生成需要融合多个文档(如 doc A 和 doc B)进行逻辑推理,你会怎么设计?若引入知识图谱,如何与生成模型结合?
7.项目:你们的 CoT(Chain-of-Thought)训练数据是如何构造的?使用 CoT 微调后的模型,对非 CoT 类任务是否有泛化增益?
8.项目:模型训练数据上线前,你们从哪些角度做质量检验?用了哪些自动化手段或人工规则?
全部评论

相关推荐

2025-12-08 22:37
复旦大学 Java
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务