阿里 AI Agent 开发二面

1. 大语言模型的 RLHF 训练流程是什么,它存在哪些潜在风险

RLHF 一般分三步。第一步是 SFT,用高质量指令数据把基座模型调成能听懂任务、按格式回答的模型。第二步是训练奖励模型,把人工偏好数据整理成 chosen 和 rejected 形式,让奖励模型学会判断两个回答哪个更好。第三步是强化学习优化,最经典的是 PPO,让当前策略在奖励更高的方向上更新,同时用 KL 约束避免模型偏离初始策略太远。

它的风险主要在三个地方。第一,奖励模型可能学偏,模型最后学到的是“讨好奖励模型”而不是真正更有帮助。第二,强化学习阶段如果约束不够,模型容易出现 reward hacking,看起来分数高,但真实回答质量下降。第三,偏好数据本身带有标注员风格和主观倾向,容易把这种偏好固化到模型里,最后表现成过度拒答、过度保守或者风格单一。

2. 什么是 Embedding,词嵌入和句嵌入有什么不同

Embedding 就是把离散对象映射成连续向量,让模型能在向量空间里表示语义关系。对于大模型来说,token、词、句子、文档、图片区域都可以做 embedding。这个向量不是简单编号,而是会把相似语义映射到更接近的位置。

词嵌入关注的是局部粒度,通常表示一个 token 或一个词,比如“苹果”在不同上下文中可能对应不同语义,但静态词向量只有一个表示,现代模型更多用上下文化 embedding。句嵌入关注的是整个句子的语义压缩,常用于检索、聚类、匹配和排序。词嵌入更适合做序列建模里的底层输入,句嵌入更适合直接拿来做相似度计算。

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("BAAI/bge-small-zh-v1.5")
word_vec = model.encode(["苹果"])
sent_vec = model.encode(["这家餐厅的人均价格比较高,适合商务宴请"])

print(word_vec.shape)
print(sent_vec.shape)

3. 大语言模型中的 Tokenization 是如何工作的,不同模型的分词算法有什么差异

Tokenization 的目标是把原始文本切成模型可处理的离散单元,再映射到词表 id。这个单元不一定是一个完整词,可能是字、子词、词缀,甚至单个字节。模型训练和推理时真正看到的是 token id,不是原始字符串。

不同模型常见的分词算法有 BPE、WordPiece 和 Unigram。BPE 是从字符开始不断合并高频子串,优点是实现直观,词表构造稳定。WordPiece 也做子词划分,但更强调基于概率或似然收益选择合并单元。Unigram 的思路反过来,是先准备一个较大的候选词表,再通过概率模型删减出最优子词集合。中文模型有些会偏向字粒度,有些会混合中英子词;代码模型会保留更多符号和空格信息;多语种模型则更重视跨语言共享子词。

4. paged attention 和 continuous batching 是什么

paged attention 本质上是把 KV cache 的内存管理做成类似虚拟内存分页的方式。传统做法里,每个请求的 KV cache 通常要求一块连续显存,容易造成碎片和浪费。paged attention 把 cache 切成固定大小的 block,请求只需要维护 block 表,就像页表一样索引这些 block。这样能显著提高显存利用率,尤其在多请求、不同长度混跑时效果很明显。

continuous batching 指的是请求不是等一整批凑齐再统一执行,而是在解码过程中不断把新请求插进批次,把已结束请求移出去,让 GPU 始终尽量满载。它解决的是在线服务里请求到达时间不一致的问题。传统静态 batch 会让很多请求空等,continuous batching 则更像动态调度,把 prefill 和 decode 阶段的资源利用率做得更高。

5. 用了 vLLM 加速前后,推理一致性怎么样

理论上如果权重、采样参数、精度和算子实现完全一致,结果应该尽量保持一致,但工程上通常只能做到高一致而不是逐 token 完全一致。原因在于推理框架切换后,底层 kernel、并行归约顺序、浮点舍入误差、采样实现细节都可能变,尤其是 fp16、bf16 场景,小数值扰动会在自回归生成里逐步放大。

实际评估通常不会只看某一条样例完全一致,而是看多个维度。一个是 deterministic 条件下的输出差异率,比如 temperature=0 时是否大体稳定。另一个是概率分布层面的一致性,比如 top-k token 集合、logprob 差异。再往上线一点,要看任务指标是否变化,比如准确率、拒答率、工具调用正确率和长回答稳定性。如果功能指标基本一致,而吞吐和时延显著优化,通常就认为切换是成功的。

6. warmup 为什么是前 100 步损失变化更快,除了 loss 变化快还有什么变化

warmup 的核心是让学习率从较小值逐渐升到目标学习率,避免一开始梯度更新过猛导致训练不稳定。前 100 步损失看起来变化快,一方面是模型刚开始还在快速适应当前数据分布,另一方面是参数从随机初始化或迁移初始化状态进入有效优化区间,很多低级错误会很快被修正。

除了 loss 下降更快,warmup 期间通常还伴随梯度范数、激活分布、权重更新幅度和优化器动量统计的快速变化。尤其是 Adam 这类带一阶二阶矩估计的优化器,前期统计量本身也在建立,warmup 相当于给这些状态一个更平滑的启动阶段。工程上经常能看到前几百步 loss、grad norm、learning rate 三条曲线是耦合变化的。

7. 大模型是什么结构,看过源码吗

主流大语言模型大多还是基于 Transformer decoder-only。输入 token 先过 embedding,再叠加位置编码,然后进入多层 block。每个 block 通常包含 self-attention、MLP、残差连接和归一化。不同模型的差异主要体现在位置编码形式、归一化位置、激活函数、attention 变体、是否用 GQA 或 MQA、是否引入 MoE 之类的结构。

如果从源码层面看,一个完整推理过程通常包括 tokenizer、模型配置、权重加载、forw

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论
同学,考虑一下我们这里吗,招实习生啦:https://careers.pddglobalhr.com/campus/intern?t=FFEgIPlwIe
点赞 回复 分享
发布于 04-13 14:44 上海

相关推荐

04-23 21:26
已编辑
门头沟学院 Unity3D客户端
鼠鼠bg是个28江西双非本,在今天终于拿到面试了 现在来发下面经 就当是为自己攒好运了一面:26分钟一面主要是算hr面的?主要是是个初创公司 人员架构非常小1.自我介绍2.讲解了一下公司背景  后面开始询问一些游戏开发的时候遇到的问题了(可能是hr面 不是很懂技术)问题1:一个跑酷游戏 不断地生成场景你会怎么设置 让这个内存不会崩溃答:用对象池的形式 复用场景中的对象 减少new的内存成本问题2:在3d角色到墙角之后 怎么样的调试可以让摄像机不被挤到外面去 或者说不穿模(鼠鼠一开始是蒙的)答:摄像机进行范围检测 检测到碰撞器之后 就用特定的算法 调整摄像机的角度(瞎答的 不知道对不对)问题3:一个游戏场景中 有一百个人 你要怎么渲染才能不造成卡顿(老生常谈这个问题)答:根据具体的需求 选择精细渲染周边的角色 远处的角色用lod方式 减少渲染的精度问题4:你玩了什么游戏?如果让你实现一个只狼的振刀效果你会怎么做?(属实是给我问蒙了 因为我真的没有去想过这方面)答:我会在一个敌人攻击下落的时候进行判断,比如多少帧之内 一个角色即在敌人的攻击范围又按了防御键就振刀成功(瞎答的)问题5:我们要上线一个手游 但是在一些低端机上面运行的时候会发热 你会怎么解决这个问题?答:可以根据的手机的性能 通过热更新加载不同的材质包 然后再ui拼的界面 使用动态合批和静态合批 减少canvas的rebuild和 drawcall的产生一面就到此结束了 后面聊了一下 公司是完全用lua开发 以及是roblox(这个鼠鼠没接触过 真不知道)平台上的ugc当天晚上7:30二面:技术面询问是否需要自我介绍,说不需要1.说说数组和列表的区别 (这个就不给答案了)2.你知道什么样的排序方式 最熟悉哪个(老生常谈)答:冒泡和快速排序  让后鼠鼠说了一下快速排序的底层实现逻辑 时间复杂度  被反问了空间复杂度 回答是n3.拷打项目4.询问如果有人用外挂篡改客户端的数据 你要怎么保证这个外挂没有办法得逞答:将实际数据存储再服务端上 客户端发送请求的时候  用服务端对数据进行逻辑处理5.如何使用ai  ai开发中遇到问题怎么办答:多注意提示词的运用 遇到问题 对症下药 结合ai去解决 实在解决不了去求助6.如果美术和策划吵起来怎么办(面试官问的时候自己都笑了)答:大家坐下来饮茶先~ 好好谈反问: 您觉得我晚上的面试情况怎么样? 答:挺好的以上 总得来说 基本上都是开发过程中会遇到的问题 八股的考察比例十分的少 不知道为啥 本来准备前还很焦虑的 哈哈哈结果还不错最后 祝大家都能找到好的实习!
查看11道真题和解析
点赞 评论 收藏
分享
评论
2
21
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务