快手 大模型开发 二面

1、自我介绍

2、实习中搭建智能体是为了解决什么样子的问题

3、搭建的过程中,你是怎么设计的

我在设计智能体的时候,不会把它做成一个完全自由发挥的黑盒,而是尽量让它处于“有限自主”的状态。整体上我会拆成几个模块:输入理解、任务规划、工具路由、执行器、状态管理和结果汇总。输入理解负责把用户请求转换成更清晰的任务表示;任务规划决定当前问题要不要拆步骤,以及每一步的执行顺序;工具路由负责选择检索、分类、规则引擎或者外部接口;执行器负责真正调用;状态管理负责记录中间过程,避免模型每次都只靠上下文硬记;最后再由汇总模块把过程结果整理成最终输出。

设计时我比较看重两个点。一个是工具边界要清楚,不能让模型既决定任务又随意拼参数,否则线上最容易出错。另一个是状态必须尽量结构化,尤其是多轮任务或者多步骤推理时,不能把所有中间信息都堆在自然语言里,否则越到后面噪声越大。实际落地时,智能体不是越自由越好,而是越可控越容易稳定。

4、链路搭建是一次性成功的吗,衡量过准确率吗

肯定不是一次性成功的。智能体这种链路最开始一般都能跑通,但“跑通”和“可用”差别很大。第一版往往只是在少量样本上看起来没问题,真正放到更复杂的输入里,就会暴露出很多问题,比如任务拆解不稳定、工具选错、参数抽取有偏差、上下文污染、结果整合失真,这些都很常见。

准确率是一定衡量过的,但不能只看单一指标。因为智能体不是一个纯分类器,它的问题可能出在多个环节。所以我会把评估拆开看。先看任务识别是否正确,再看工具调用是否正确,再看最终结果是不是符合预期。如果是审核或者识别类场景,还会看准确率、召回率、误杀率、漏检率这些指标;如果是多步骤任务,还会额外看链路成功率、单步执行成功率和整体完成率。很多时候最终效果不好,不一定是模型本身弱,而是前面某一步把错误放大了,所以评估必须分层做。

5、你怎么做智能体效果评估,除了准确率还看什么

智能体效果评估如果只看最终准确率,其实信息量是不够的。因为一个结果答对了,不代表中间过程合理;一个结果答错了,也不一定能直接定位到是哪一步出了问题。所以我一般会把评估拆成结果评估、过程评估和系统评估三层。

结果评估关注任务是否完成、输出是否符合业务要求。过程评估关注规划是否合理、工具是否选对、参数是否正确、是否发生了无效循环或者多余步骤。系统评估则会看延迟、成本、超时率、重试率、失败样本分布这些工程指标。对真正的业务系统来说,最终能不能稳定上线,很多时候不是由单次回答质量决定的,而是由整体链路稳定性决定的。

6、如果智能体在同一个问题上多次执行结果不一致,你怎么解决

这个问题本质上是智能体稳定性问题。它出现的原因通常有几类。第一类是模型本身采样带来的波动,比如 temperature 偏高或者规划阶段太开放;第二类是 Prompt 定义不够清晰,导致模型对任务边界理解不一致;第三类是上下文状态不稳定,历史 observation 的组织方式不同会影响后续决策;第四类是外部工具返回本身就不稳定。

解决思路一般是先减少不必要的自由度。比如在规划阶段把 Prompt 写得更明确,限制输出结构;降低生成随机性;把高频稳定场景固化成半工作流,不让模型每次都自由拆解。对于关键工具调用,还可以加显式约束和后验校验。再往上一层,如果发现某类问题天然就容易发散,那就不能强行让智能体全自动决策,而是要加规则兜底或者人工确认点。很多智能体问题的本质不是“模型不聪明”,而是系统没有把不确定性收住。

7、提示词你是怎么设计的,怎么让模型更理解业务意图

Prompt 设计本质上是在做任务表达和边界约束。让模型理解业务意图,不是靠把提示词写得很长,而是靠把目标、标准、上下文和输出形式讲清楚。我一般会先明确角色,比如它现在是审核助手、识别助手还是任务规划器;然后写清楚当前任务目标,再把判断标准、禁止行为、输出格式单独列出来。如果业务场景边界复杂,我还会加入正反例,让模型更清楚什么该判、什么不该判。

在真实业务里,提示词不能只追求“看起来完整”,而是要尽量减少歧义。尤其是审核、识别、分类这类场景,模糊表述非常容易导致模型漂移。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

多模态模型横向对比除了 Video-LLaMA,还了解哪些主流多模态大模型?→ 常见的有 LLaVA、Flamingo、BLIP、BLIP-2、KOSMOS、PaLI 等简单介绍 ALBEF 和 BLIP 这两个模型的核心设计→ ALBEF:基于图像 - 文本对比学习,搭配动量蒸馏来优化图文对齐效果;BLIP:引入 captioner 生成高质量图文对,再结合 filter 机制筛选优质数据BLIP-2 的整体结构是什么?两阶段训练流程是怎样的?用到了哪些损失函数?→ 结构:在 ViT 和大语言模型之间插入 Q-Former 作为中间桥梁→ Stage1:冻结 ViT 和语言模型,只训练中间的 Q-Former→ Stage2:冻结语言模型,将 Q-Former 与 LM 连接,做指令微调→ 损失:ITC(图文对比损失)+ ITM(图文匹配损失)+ LM 生成损失微调方法(PEFT 全家桶)了解 PEFT 吗?再讲讲 LoRA,重点说明低秩假设的合理性→ PEFT 是参数高效微调的统称,核心是只训练少量参数而不动原模型权重;LoRA 假设模型权重更新量 ΔW 具有低秩特性,将其分解为 A×B,只训练 A、B 两个低秩矩阵,既节省显存又能保留效果除了 LoRA,还有哪些 PEFT 方法?Prefix-tuning 和 P-tuning 有什么区别?→ 其他方法:Adapter Tuning、Prefix-tuning、P-tuning、IA³ 等→ Prefix-tuning:在输入序列前加可学习的 prefix,作用于注意力的 K/V 矩阵,更适合 decoder-only 架构→ P-tuning:用小型网络(如 LSTM)生成连续的 soft prompt,解决离散 prompt 不稳定的问题,更适配 encoder-decoder 模型大模型训练范式你项目中用到的大模型结构是什么?多模态特征是如何喂给大模型的?→ 示例流程:视频帧 → TimeSformer 提取时空特征 → 特征池化 → 线性投影对齐到文本维度 → 拼接到文本 prompt 之前 → 输入 LLM大模型在做了指令微调后,为什么还需要 RLHF?→ 指令微调只是让模型学会遵循指令,但输出可能更偏向 “模板化”;RLHF 是通过人类偏好对齐,让模型输出更符合人类价值观、更自然、更有用的回答,解决 “有用性” 和 “安全性” 问题了解 RLHF 吗?描述它的完整训练流程→ 三阶段流程:① SFT 微调:用高质量指令数据对预训练模型做监督微调,让模型学会基本指令遵循② 训练 Reward Model(RM):用人类标注的偏好数据训练奖励模型,学习给不同模型输出打分③ PPO 优化:用 RM 作为奖励信号,通过 PPO 算法更新策略模型,最大化 RM 给出的奖励,实现与人类偏好对齐手撕 LeetCode 原题:合并 k 个升序链表→ 核心思路:用小根堆维护 k 个链表的当前节点,每次弹出最小值节点并入结果链表,再将该节点的下一个节点入堆,直到所有链表遍历完毕;时间复杂度 O (N log k),N 为总节点数
查看9道真题和解析
点赞 评论 收藏
分享
全是八股轻松拿下,面完隔一天就说 oc 了(接了之后突然和我说加面,后面过了但是说 hc 无了)1. Go 语言有哪些特点2. 值类型和引用类型有哪些3. slice 和 array 的区别4. map 是否并发安全 / 为什么并发写不安全5. goroutine 和线程的区别6. 栈内存和堆内存的使用场景7. Go 的 GC 机制8. 逃逸分析 (escape analysis)9. context 的作用10. MySQL 常用引擎及区别 / 适用场景11. MySQL 索引类型12. 事务四大特性 ACID13. 事务隔离级别及可能造成的问题14. MySQL 底层日志 binlog / redolog / undolog15. MySQL 主从复制原理16. Redis 常用数据类型及适用场景17. Redis 为什么快18. Redis 数据量过大时为什么会变慢19. Redis 持久化机制20. Redis 分布式锁21. 为什么 Go 推荐 goroutine + channel 但还需要 Redis 分布式锁22. 消息队列中间件使用经验23. IO 多路复用原理24. HTTP 有什么特点25. 多模态内容(用户/商品)的点赞/评论/关注聚合展示 - 表结构设计26. 异步写入的缺点 / 一致性问题27. 职业规划28. 自我评价29. 工作中遇到问题如何解决
查看29道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务