千问大模型算法27实习一面 50min

祝大家都能拿到满意的Offer!
1.详细拷打实习经历
2.ppl 怎么算,当模型输出趋于一致的时候ppl高还是低。
3.讲解一下自己熟悉的模型的架构。具体讲下MLA和Linear attention,其中对于普通的Linear attention有什么可以改进
4.大模型中对于 transformer 的ffn有什么改进

手撕:
1. 最长公共子序列 + 该题变体
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务