大模型面经每日总结

通俗解释旋转位置编码,和sin-cos位置编码有什么不同之处

简述GPT3、LLAMA、ChatGLM的区别
从生态,训练语料分布、模型结构方面

Multi-query Attention与Grouped-query Attention区别是什么

非Transformer架构的算法模型如LFM(Liquid Foundation Models)有哪些优势

了解 GShard 吗
全部评论
mark生态对比分析
点赞 回复 分享
发布于 2025-07-03 17:04 上海

相关推荐

01-12 17:45
门头沟学院 Java
985废物一枚:就是问问你能不能接受北京的房租,hr也知道公司工资不高,大概率是要贴钱的
找实习记录
点赞 评论 收藏
分享
评论
点赞
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务