今天 12:11 门头沟学院算法工程师

关注

海底捞大模型面经

面试官一上来没问传统的八股，直接问一个场景题怎么做一个海底捞智能点餐Agent的后训练。
我说那当然是先SFT再RL。
但这个不能只简单的sft，根本就没有训练数据，你这个场景还得是多轮的，用户又不是报菜名贯口选手，张嘴就来一串"番茄加牛油 + 麻一度+七寸盘脆毛肚"。没有对话数据，从哪开始炼？
先搞数据吧。
现在海底捞门店全是 iPad 和小程序点单，数据形态是用户行为轨迹（trajectory），不是对话：
- 选锅底（番茄 + 牛油）
- 加菜、撤菜
- 翻页停留（隐式反馈）
- 临时改备注
要把这套 UI 操作流翻译成自然语言多轮对话，再喂模型学。
目标语料长这样 👇
▎ Agent：先看锅底？
▎ 用户：有人吃辣有人不吃。
▎ Agent：番茄牛油鸳鸯，行么？
▎ 用户：可以，麻度调到 1。
▎ Agent：开始点涮菜吧。
▎ 用户：来份捞派脆脆毛肚……
把过去的点单流水批量合成几十万条这种对话，SFT 阶段仅计算 Agent 那一侧的 loss（User轮次全 mask 掉），不然模型会学着模仿用户瞎点菜。
多轮在线 RL 比 SFT 难十倍——没人能现场陪你跑几万局。所以得先训一个 User 模拟器：
- 输入种子 profile：黑海 / 金海 / 银海
等级、历史偏好、过敏忌口、是否「薅羊毛型选手」……
- 第一轮 Agent 出招后，模拟器接力生成第二轮回应，往返多轮
- profile 里塞一个「结束点餐」special token，控制对话什么时候自然停下
有了这个模拟器，才能稳定 rollout 出多轮 trajectory 喂 RL。

面试官追问多轮RL的reward怎么设计？

我的思路是全部做成 verifiable reward，避免 reward hacking：
符合历史人均消费客单价+100分，点餐分量合理+80分，荤素分布合理或符合历史分布+60分，命中特殊需求轮次奖励+120分。
用pav信用算法分配考虑turn级的分配，，引导模型循序渐进引导式点单——而不是一上来甩一整本菜单让用户挑。

面试官说又追问，这么做的大模型应用真比直接点餐体验好吗？
我愣住了，你们招这岗位，不就是要做这个事吗。。。为啥还要质疑存在的合理性？我只能硬着头皮答😅

面试官说:谢谢你的时间。
后续是挂了 #万物皆可发面经#

全部评论

推荐最新楼层

昨天 10:11

河海大学 Java

暑期结束了

自己的暑期应该结束的比大部分人要晚的多吧历经两个月十几次面试，一半一面挂，个别横向挂，个别泡池子，确实是灰心了（自己太菜+第一学历比较差）当时说服自己接了一家中厂的offer，遂去广州跟女友一起散心游玩了也感谢女友和百度的小伙伴们一直给我的支持，总是耐心倾听和接纳我的负能量，最后也是挺意外的接到了滴滴的offer call

我的求职进度条

点赞评论收藏

分享

昨天 00:10

河西学院培训策划

这个是啥意思啊？我不懂，第一次用这个。

点赞评论收藏

分享

昨天 09:41

西安电子科技大学 C++

为什么五月中下旬会有这么多约面的

如题所示，最近一段时间各种大厂都在发面试邀请。按理说这个时间点人早都招满了才对给我发面试邀请就是刷个kpi吗

点赞评论收藏

分享

今天 11:32

已编辑

门头沟学院 Java

论期末周如何跟mentor请假（奴才版）

下周要期末周了，可能要请一周左右的假，必须提前和mentor说，但又怕不同意，不过好在最后同意了，现在就祈祷别中途给我辞退了，鼠鼠好不容易才找到的这个实习

爱睡觉的冰箱哥：这mt口气这么装逼的吗

点赞评论收藏

分享

05-24 10:33

大连海事大学 Java

实习跟不上，怎么办

在学校附近的小厂干Java后端，结果发现自己好像干不了开发，现在过完第三周了，改了两周的bug，有时候一天可以改两个，有时候一个也没有，两周了好像一共才改了八个，看到其他正职每天一边改bug，一边自测写需求的，改的bug还比我多，现在用ai也还是效率慢慢的，大家有什么建议吗，是不是真的该放弃开发

在炒股的华夫饼很热爱...：三周改八个你这是质量优先选手

实习心态崩了

点赞评论收藏

分享

评论

2

收藏

招聘动态

快手

27届实习超多转正机会

27届校招宝典

网申助手插件

校招信息网申列表

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习生的蛐蛐区 #

981711次浏览 4922人参与

# 你上一次给父母打电话是什么时候 #

45164次浏览 280人参与

# 27届实习投递记录 #

153040次浏览 1588人参与

# 父母对你找工作是助力还是阻力？ #

49509次浏览 423人参与

# 万物皆可发面经 #

1006次浏览 21人参与

# 找工作时的取与舍 #

139237次浏览 927人参与

# 多益网络工作体验 #

74299次浏览 316人参与

# 实习，不懂就问 #

222564次浏览 1728人参与

# 从mentor身上学到了__ #

65978次浏览 909人参与

# 多益网络求职进展汇总 #

109154次浏览 409人参与

# 我和mentor的爱恨情仇 #

119836次浏览 1006人参与

# 你觉得mentor喜欢什么样的实习生 #

62288次浏览 1047人参与

# 你的mentor是什么样的人？ #

64957次浏览 806人参与

# 一起聊华为 #

221817次浏览 973人参与

# 求职中的尴尬瞬间 #

42533次浏览 127人参与

# 薪资一样，你会选择去大厂还是小公司 #

35784次浏览 133人参与

# 实习的内耗时刻 #

243070次浏览 1670人参与

# 发工资后，你做的第一件事是什么 #

107901次浏览 348人参与

# 牛友投递互助，不漏校招机会 #

495803次浏览 5371人参与

# 新凯来求职进展汇总 #

83127次浏览 195人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务