Varian - 个人主页动态 - 牛客网

08-25 12:10

门头沟学院机器学习

阿里大模型一面

1. 在LLM推理里，我们经常听到一个词叫prefill，能解释一下它是什么意思吗？2. 我们来聊聊Transformer的基础吧。能先介绍一下Softmax函数吗？然后整体讲讲Transformer模型，特别是里面的QKV（Query, Key, Value）机制，能详细说说这个过程吗？3. Transformer的训练复杂度还挺高的，尤其是在处理长序列时。你了解哪些工作是致力于降低它训练时间复杂度的？4. 长上下文（long context）是现在LLM的一个研究热点，你都知道有哪些方法可以解决或者缓解长下文问题？5. GQA（Grouped-Query Attention）的原理是什么？...

查看11道真题和解析

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务