首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
匿名牛油
10-16 22:20
不愿透露姓名的神秘牛友
关注
已关注
取消关注
面壁智能大模型一面
手撕:MHA 自我介绍+项目提问约30分钟 涉及八股: Sft的损失函数怎样计算 grpo相对于ppo的改进 grpo的缺点以及改进算法 介绍几种并行训练方式(tp.pp等)哪一种最常用 训练的前向和后向过程中有哪些中间值是fp32,哪些是fp16 场景题: 一个2b的小模型,要想提高其在运算方面的数学能力,怎么设计训练方式?
提示
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
11-11 15:39
已编辑
浙大宁波理工学院 人工智能
滴滴RL实习生面经(已oc)
浙大98投递背景:9本9硕,1篇2作A, 1篇4作A, 1篇1作在投,半年算法研究实习一面科研经历如何增强多模态模型的识别准确度(比如识别出一个医疗手写表格中的特征与具体值)在用verl做强化学习时,你是根据什么指标来查看训练的进度的。讲一讲你对rag的理解ppo的原理ppo是倾向于将模型往什么方向训练讲一个你最熟悉的模型(讲的deepseek-r1)多模态基础手写多头注意力为什么计算注意力要除以维度decoder-only的结构,输入prompt到输出token的整个过程。有什么办法将2维的embedding转换成3维的embedding,同时保留位置编码信息以后读博还是进入工业界如果有转正...
查看16道真题和解析
点赞
评论
收藏
分享
11-17 20:06
已编辑
门头沟学院 人工智能
同花顺 大模型推理 二面 HR面
时长:1h 面试:1. 自我介绍,介绍简历里面没有的东西2. 本科期间的经历,包括实习和科研3. 聊同花顺软件使用4. 一些个人情况5. offer到岗时间6. 介绍公司周围情况
查看6道真题和解析
点赞
评论
收藏
分享
11-20 18:15
山东大学 算法工程师
阿里通义大模型算法二面已凉凉
1.实习介绍2. Lora 原理(核心是低秩分解:将原始权重更新近似为两个低秩矩阵乘积,减少参数量,保留主导方向,训练高效)3.了解 DeepSpeed 吗,ZeRO -1, ZeRO -2和 ZeRO3分别做了哪些优化(1优化优化器状态,2优化梯度,3切分参数,全面节省显存)4. Qwen的模型结构是怎么样的,相比于 LLaMA,DeepSeek 有什么区别(Qwen采用GQA+SwiGLU+RMSNorm,和LLaMA架构非常相似,差异在训练数据和tokenizer中文支持更好;DeepSeek只用MoE/MLA架构,Qwen系列主要是Dense模型)5.怎么缓解大模型的幻觉问题(RAG,RLHF对齐,事实监督)6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方,DeepSeekMoE为什么效果好,有什么值得我们借鉴创新点(MoE面临负载不均衡、训练不稳定问题;DeepSeekMoE通过细粒度专家和共享专家设计提升稳定性和效果)7.知道FP16和BF16有什么区别吗,包括FP32和INT8这些,在训练大模型的时候,应该怎么选择(FP16精度高但易溢出,BF16动态范围大;训练常用BF16混合精度,推理用INT8量化加速)8.讲-下 RLHF 的流程,写-下 PPO和 DPO的 Loss表达式(训练奖励模型后用PPO/DPO优化策略:PPO Loss: policy ratio + KL 约束/ DPO Loss: logit preference diff + sigmoid binary loss)9.对于超长上下文业界一般是怎么做的,你知道 Qwen是怎么做的吗(业界常用ROPE 变体/滑动窗口注意力/稀疏注意力等:Qwen使用YaRN和窗口注意力扩展上下文)10.开放题:你觉得目前大模型的上限在哪里(推理能力、长期记忆、具身交互和能耗效率,需要架构创新和多模态融合突破)11.代码:152.乘积最大子数组
查看9道真题和解析
点赞
评论
收藏
分享
11-13 03:10
昆明理工大学 算法工程师
秋招-大模型应用算法蚂蚁二面60min
1.实习介绍2.拷打项目3.RAG中如何处理非结构化知识与结构化知识的混合检索?4.在金融业务中,像“杠杆”、“对冲”等许多术语都存在歧义性。你如何在 RAG 中实现术语的准确消歧?5.你认为RAG 是大模型能力的一种补偿手段还是主流范式?未来还会存在吗?6.如何控制Agent生成的内容在业务上规避风险,比如合规和隐私之类的?7.Agent 执行链中失败重试会导致长尾耗时,你如何优化策略以控制 SLA?8.LoRA 微调时哪些层是可以不冻的?为什么有时候逐层解冻效果更好?9.如何部署一个高并发低延迟的大模型 API 服务?10.你觉得通用大模型和垂类小模型之间最终会形成怎样的分工?哪个更适合企业落地?
查看10道真题和解析
点赞
评论
收藏
分享
11-30 20:20
中南大学 算法工程师
字节推荐大模型二面-秋招面经
1. 实习介绍+介绍论文2. attention的计算时间复杂度3. 推荐系统或者NLP领域 有什么方法可以加速attention计算4. 你了解哪些生成式推荐的论文5. 为什么要在推荐系统引入RQ-VAE6. RQ-VAE和VQ-VQE有什么不同7. RQ-VAE怎么解决坍塌问题8. Normalization有哪些,有什么作用9. 什么时候用batch norm什么时候用layer norm,为什么10. 训练和推理的时候的BN均值和方差都是怎么得到的11. 代码题:Ic331验证二叉树的前序序列化
查看11道真题和解析
点赞
评论
收藏
分享
一键发评
手撕MHA?
接好运
耐面王
SFT损失咋算
GRPO改进点
评论
点赞成功,聊一聊 >
点赞
2
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
后端秋招24场100%胜率的SSP,真的只是靠卷技术吗?
2.4W
2
...
面试官别再问 AI 应用啦,我是真没招了
1.4W
华为开奖交流
热聊中
3
...
27纯血双非第二段大厂实习oc
5797
4
...
字节新年礼盒发相机,你们厂的开了嘛
5171
5
...
想要去北京实习但家人不支持
4777
6
...
简历中的项目最推荐的方式
4618
7
...
秋招收官8个offer,出发TME
4231
8
...
怎么劝女朋友找工作?
4052
9
...
临时有感
3841
10
...
老妈虽然舍不得,但是还是支持我去大城市
3727
创作者周榜
更多
正在热议
更多
#
为了去实习,我赌上了___
#
6535次浏览
73人参与
#
2025年终总结
#
933次浏览
27人参与
#
哪一瞬间让你觉得“这班不如不上”
#
3644次浏览
65人参与
#
父母对你找工作是助力还是阻力?
#
5280次浏览
109人参与
#
十二月请对我好一点
#
12646次浏览
211人参与
#
一人推荐一个值得做的项目
#
4256次浏览
70人参与
#
滴滴工作体验
#
35229次浏览
145人参与
#
工作前VS工作后,你的心态变化
#
5759次浏览
75人参与
#
uu们,春招你还来吗?
#
2940次浏览
33人参与
#
高薪高压 vs 低薪wlb,你怎么选?
#
4925次浏览
53人参与
#
得物app工作体验
#
39314次浏览
97人参与
#
工作中出现了XX情况正常吗
#
15224次浏览
142人参与
#
你的实习什么时候入职
#
321370次浏览
2170人参与
#
产品实习,你更倾向大公司or小公司
#
184575次浏览
2040人参与
#
秋招有哪些公司要求提前实习
#
91676次浏览
492人参与
#
公司福利里最没用的一项是啥
#
3255次浏览
64人参与
#
被AI治愈的瞬间
#
82270次浏览
674人参与
#
回顾今年你干过的最“勇”的一件事
#
6443次浏览
92人参与
#
办公室恋情是职场大忌吗
#
12434次浏览
25人参与
#
产品人求职现状
#
294384次浏览
2357人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务