阿里云大模型算法面经

策略梯度算法的公式?

DPO和PPO的损失函数,原理,区别,DPO的探索是如何体现的?

梯度消失,梯度爆炸的根本原因?

模型过拟合的根本原因?有哪些方式缓解过拟合?

大模型分布式训练的通信协议?torchrun是做什么用的?

deepspeed的三个阶段,分配参数时,单机8卡和双机16卡,每张卡上分配的参数量是一样的吗,为什么?

大模型位置编码的方式?旋转位置编码相比于传统正余弦位置编码的区别?为什么要用旋转位置编码?

COT的训练是如何做的,数据如何构造?

预训练时packing和padding的区别,packing的优点和缺点有哪些,哪种效果好一些?

Qwen3的模型架构(详细介绍),相比于Qwen2.5有哪些改进?

同样是MoE架构,Qwen3的MoE架构和DeepSeek的MoE架构有哪些区别?

多模态大模型的ViT,解释原理、如何训练的?

手撕:
1、一道sql题(第一次遇到大模型面试让手撕sql的)
2、手撕transformer(第一次遇到直接说手撕transformer的)
全部评论

相关推荐

总结:一个小时,一半实习经历,一半八股提问,有两道手撕,并写出接口测试实习经历提问1.在闪购场景的测试过程中,你主要发现了哪些有价值的问题?2.你是怎么样来设计对应的测试方案的?3.AI自动化加白这个功能主要是做些什么?是如何实现的?4.能否介绍一下AI自动化埋点验证的背景以及你参与的开发工作和实际应用效果?5.闪购页面出现白屏的原因及排查方法是什么?6.在AI数据看板的开发过程中,AI是如何参与工作的?7.大模型在测试场景下的局限性在哪里?有哪些改进方向?八股提问1.在专项开发过程中,你主要使用了哪些设计模式?回答:用到了单例模式(线程池),用了工厂模式,用了策略模式2.线程池的基本原理是什么?3.单个线程的状态转移是怎样的过程?4.有哪些常见的进程间的通信方式及其优缺点?5.插入排序和冒泡排序在性能上哪个更好一些?6.操作系统死锁的必要条件有哪些?7.如何判断链表是否有环以及找到环的入口节点?8.数据库左连接和右连接的区别是什么?9.数据库事务的四大特性是什么?10.在Linux系统上如何找到指定端口号的进程并结束它?手撕环节1.请写一个Api的fuzz测试2.在处理加密过的字符串时,如何解析并展示字符串?例如2[b3[a]] = baaabaaa追问:如果去掉一个栈,如何重新设计算法实现相同功能?追问:针对上述功能,如何设计对应的测试用例?反问环节1.团队业务是什么?是做手淘的基础架构测试,会带一点前端和客户端测试。2.发版节奏一周一次,多个需求会并行3.工作节奏互联网节奏,早十晚九
查看21道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务