阿里大模型一面

岗位名称:大语言模型算法

面试时长:1h–1.5h

自评分:8/10

是否下一轮:是

模型架构与基础原理

  • 目前主流大语言模型在架构设计上有哪些异同点?
  • (追问)Decoder-only 和 Encoder-Decoder 在实际应用场景上有什么区别?
  • 介绍一下大语言模型中的注意力机制,多头相比单头注意力有何优势?
  • (追问)如果减少头数会发生什么?是否一定性能下降?
  • 什么是大语言模型的涌现能力?目前对该现象的研究有哪些发现?
  • (追问)涌现能力是否和模型规模线性相关?
  • 什么是 Embedding?词嵌入和句嵌入有何不同?
  • (追问)Embedding 层是否会参与微调?为什么?
  • 大语言模型中的 Tokenization 是如何工作的?不同模型的分词算法有何差异?
  • (追问)BPE 和 SentencePiece 的核心差异是什么?

Prompt Engineering 与 In-Context Learning

  • 简述大语言模型中的 Prompt Engineering 技巧,如何设计有效的提示词提升模型输出质量?
  • (追问)如果 Prompt 很长但效果不好,通常从哪些方向排查?
  • 对比 Zero-Shot、Few-Shot 和 In-Context Learning,它们在大语言模型中的应用场景和局限性分别是什么?
  • (追问)Few-Shot 示例顺序是否会影响结果?

训练方法与参数高效微调

  • 什么是 LoRA?它在大语言模型微调中的优势和原理是什么?
  • (追问)LoRA 为什么只在某些矩阵上做低秩分解?
  • 大语言模型的 RLHF 训练流程是什么?它存在哪些潜在风险?
  • (追问)奖励模型如果存在偏差会带来什么影响?
  • 介绍一下大语言模型中的知识蒸馏,它如何用于压缩模型体积?
  • (追问)蒸馏过程中学生模型是否一定性能下降?
  • DeepSeek 优化了哪些?为什么不用 PPO,而是用 GRPO?
  • (追问)GRPO 相比 PPO 在训练稳定性上有什么变化?

推理机制与工程优化

  • 对比大语言模型的增量推理和传统推理方式,增量推理的优势和实现难点是什么?
  • (追问)KV Cache 在增量推理中起什么作用?
  • 大语言模型在推理时出现幻觉现象的原因是什么?有哪些缓解方法?
  • (追问)RAG 是否能彻底解决幻觉问题?
  • 大语言模型的长文本处理能力有限,目前有哪些技术可以缓解这一问题?
  • (追问)扩展 RoPE 或位置编码会带来什么副作用?
  • 什么是大语言模型的上下文窗口?扩展上下文窗口对模型性能有何影响?
  • (追问)上下文变长是否一定带来性能提升?

多模态大语言模型

  • 目前多模态大语言模型是如何融合文本与图像信息的?
  • (追问)是通过投影到统一 embedding 空间,还是使用 cross-attention?各有什么差异?

评估体系与基准

  • 如何评估大语言模型的性能?常见的评测指标和基准数据集有哪些?
  • (追问)Benchmark 是否能真实反映模型实际能力?(追问)如何设计一个内部评估体系?

系统能力与产品级理解

  • 单个 LLM 能否帮助用户完成完整行程规划,比如从出行到酒店都订好票?
  • (追问)仅靠模型是否足够?还需要哪些系统能力支持?

项目与研究经历追问

  • 过往项目细节追问。
  • (追问)为什么选择这个方法?是否对比过其他方案?
  • 过往论文或实验经历。
  • (追问)实验设计思路是什么?
  • (追问)结果是否具有统计显著性?
  • (追问)如果结果不理想,你会如何调整?
#面试##面试问题记录##面经##春招##大模型#
技术必备题库 文章被收录于专栏

带你复盘大厂后端和算法面试,拆解面试官到底想听啥

全部评论
hi,小伙伴们~ 3月15日(本周日)20:00–21:00,我们会在小红书做一场直播,聊一聊: 1、大模型方向目前的就业机会 2、互联网大厂今年的 HC 情况 3、结合阿里大模型春招面试面经做一次详细拆解 想了解大模型求职和面试准备的小伙伴可以来直播间一起交流~ 小红书账号:Offer面试官 感兴趣的小伙伴不要错过哦~
点赞 回复 分享
发布于 03-11 10:18 上海

相关推荐

04-09 15:17
已编辑
北京航空航天大学 Java
🎯 面试题:大模型热更新与流量调度平台【整理真题+解析+押题预测】公司:字节跳动年份:2026月份:1月面试轮次:三面岗位:AI平台研发工程师难度:⭐⭐⭐⭐⭐真题:“假设字节的推荐系统需要从ERNIE 3.0模型灰度升级到ERNIE 4.0。设计一个支持大模型热更新的流量调度平台。要求实现:1)可实时调整新旧模型的流量比例(如90%流量走V3,10%走V4);2)平滑无损切换,不能因更新导致服务中断;3)支持基于用户ID、设备ID等维度的精细化分流。给出架构设计、核心代码,并说明如何保证数据一致性(比如同一个用户的请求必须路由到同一个模型版本)。”💡 解析:这是典型的三面架构题,直接考察你设计复杂系统的能力。核心是流量治理和状态管理,将业务需求(模型迭代)转化为稳定、可控的技术方案。设计思路: 分层架构: 配置中心:存储流量配比规则(如 {“v3”: 0.9, “v4”: 0.1}),支持动态推送。 流量路由器:部署在网关或SDK中,根据规则和请求特征(用户ID哈希)决定流量走向。 模型服务池:新旧模型作为独立服务部署,对外暴露统一接口,但版本号不同。 数据收集器:实时收集各版本模型的性能指标(成功率、延迟),用于后续决策。 关键实现: 一致性哈希:确保同一用户(通过userId计算哈希)的请求在流量比例不变时,始终命中同一模型,保证体验连贯。 动态配置监听:使用ZooKeeper、Nacos或Apollo(字节内部常用),实现秒级规则生效。 无损切换:先扩容新模型服务,再调大流量,最后缩容旧服务。过程中监控核心指标,异常则快速回滚。应用业务场景: 这就是抖音推荐算法模型升级的标准流程。每天都有模型迭代,不可能停机发布。必须通过灰度平台,先让小部分用户体验新模型,监控CTR(点击率)、停留时长等业务指标,效果达标再全量,效果不好则回退。核心考点: 微服务流量治理架构设计 一致性哈希算法原理与实践 配置中心与动态推送机制 高可用发布(金丝雀发布/灰度发布)策略 监控与快速回滚能力实践(避坑指南): 流量“倾斜”:简单的随机分流可能导致小流量模型得不到有效样本。需确保分流均匀,且覆盖各类用户群体。 状态缓存:如果模型升级涉及特征存储格式变化,需注意缓存兼容性与清理策略。 回滚预案:必须自动化。当新模型故障率超过阈值,能自动将流量切回旧模型。🚨 趋势押题预测预测名称:多模型混排与智能流量调配系统押题题目:“设计一个多模型在线混排系统。一个请求可同时被多个模型(如ERNIE 4.0、ERNIE 3.5、低成本小模型)处理,系统需根据实时性能(延迟、成本)、业务指标(点击率)以及用户标签,智能决策最终返回哪个模型的结果,并动态调整各模型的调用比例。阐述架构与核心算法。”押题依据:频率雷达:在三面/终面中,“模型发布”与“流量策略”是关联性极强的组合考点,年出现22次。是考察架构师全局视野的经典题。趋势风向:字节内部已不满足于简单的A/B测试,追求更细粒度、更动态、更经济的模型调度。利用小模型承接简单请求以节约成本,是明确的技术方向。信息来源:参考字节跳动机器学习平台决策、部分业务线分享的“多模型择优”技术方案。押题逻辑理由:从“静态灰度”升级到“动态智能调度”,是技术演进的必然。三面问题会挑战你设计的上限。面试官期望看到的不只是实现功能,而是如何通过系统化设计,实现业务效果(用户体验、成本)的最优化。这要求你对算法、系统、业务均有深刻理解。核心考点:在线决策系统、多目标优化(效果/成本/速度)、实时特征计算、自适应算法。适配岗位:AI平台架构师、推荐系统高级工程师。押中概率:75%​ (高阶架构题,区分顶级候选人的利器)【代码示例】智能流量路由器核心片段@Componentpublic class IntelligentModelRouter {@Autowiredprivate ModelPerformanceMonitor monitor;@Autowiredprivate DynamicConfig config;// 核心路由方法public String route(RequestContext ctx) {List<ModelCandidate> candidates = getAvailableModels(ctx);// 1. 过滤:剔除当前不可用或性能不达标的模型candidates = filterByHealth(candidates);// 2. 打分:基于多维度为每个候选模型打分candidates.forEach(c -> c.setScore(calculateScore(c, ctx)));// 3. 选择:根据打分结果和策略(如epsilon-greedy)选择模型ModelCandidate selected = selectionStrategy.select(candidates);// 4. 记录:用于后续学习与策略调整recordRoutingDecision(ctx, selected);return invokeModel(selected, ctx);}private double calculateScore(ModelCandidate candidate, RequestContext ctx) {// 评分公式示例:Score = w1*效果预测 + w2*性能得分 + w3*成本系数double effectScore = predictModelEffect(candidate.getModelId(), ctx.getUserFeatures());double perfScore = normalize(monitor.getP99Latency(candidate.getModelId()));double costScore = 1.0 / candidate.getInferenceCost(); // 成本越低,得分越高double bias = config.getTrafficBias(candidate.getModelId()); // 人工偏向,用于冷启动return config.getWeightEffect() * effectScore+ config.getWeightPerf() * perfScore+ config.getWeightCost() * costScore+ bias;}}最后,我想说:字节跳动寻找的,从来不是“行走的八股文答案库”,而是能真正用技术解决复杂业务问题、有好奇心、有成长性的工程师。希望这份指南,能成为你技术长征中的一张实用地图。🔥评论区:接好运,祝你顺利上岸!!!!~~~~
查看2道真题和解析
点赞 评论 收藏
分享
评论
6
38
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务