收到蚂蚁【大模型数据构建与优化】的岗位面邀了

泡了半个月池子终于来面试了……

有大佬知道这个岗位面试的时候主要看中啥,大概会问什么呢?以及可以怎么样回答
全部评论

相关推荐

招见习生,实习生,秋招1.背景介绍,我是2024年生物医药专业入职华为海思,具体情况可以看我主页,现在在海思主要搞算力,业务方向华为半导体是华为公司核心研发部门,专注于昇腾AI、鲲鹏CPU等平台软硬件解决方案的研发与创新。作为华为AI算力的基石,我们支撑了华为全系产品的AI业务开发,覆盖大模型训练推理、异构计算、芯片协同设计等前沿领域,是AI技术从理论到落地的关键推动者。业务方向:1. AI Infra与大模型训推优化- 深耕昇腾AI平台,参与图编译优化、算子Kernel性能调优。- 探索异构计算资源(CPU/GPU/NPU)的自动化部署与调度技术,参与昇腾基础算子库/加速库构建,支撑DeepSeek等千亿级大模型高效运行。2.数学优化算法应用- 开发机器学习、贝叶斯网络发等统计模型,解决复杂业务场景问题- 研究遗传算法等元启发式黑盒优化技术,突破组合优化难题3.关键ai算法预研- 参与昇腾芯片亲和性算法设计,打造下一代ai软件栈与芯片协同架构我们期待这样的你:- 计算机、数学、电子工程、自动化等相关专业2026届或之后的毕业生;- 熟悉C++/Python,具备扎实的算法基础或软硬件开发经验;- 对AI、大模型、芯片技术有强烈热情,敢于挑战技术无人区。我招人是一方面,但是更多的,学生们可以和我聊聊,合适再选择,双向选择,战绩可查,已经来了两位很牛逼的学生,我也是这么过来的,当然知道你们经历了什么。
点赞 评论 收藏
分享
面试官一上来没问传统的八股,直接问一个场景题怎么做一个海底捞智能点餐Agent的后训练。我说那当然是先SFT再RL。但这个不能只简单的sft,根本就没有训练数据,你这个场景还得是多轮的,用户又不是报菜名贯口选手,张嘴就来一串"番茄加牛油 + 麻一度+七寸盘脆毛肚"。没有对话数据,从哪开始炼?先搞数据吧。现在海底捞门店全是 iPad 和小程序点单,数据形态是用户行为轨迹(trajectory),不是对话:- 选锅底(番茄 + 牛油)- 加菜、撤菜- 翻页停留(隐式反馈)- 临时改备注要把这套 UI 操作流翻译成自然语言多轮对话,再喂模型学。目标语料长这样 👇▎ Agent:先看锅底?▎ 用户:有人吃辣有人不吃。▎ Agent:番茄牛油鸳鸯,行么?▎ 用户:可以,麻度调到 1。▎ Agent:开始点涮菜吧。▎ 用户:来份捞派脆脆毛肚……把过去的点单流水批量合成几十万条这种对话,SFT 阶段仅计算 Agent 那一侧的 loss(User轮次全 mask 掉),不然模型会学着模仿用户瞎点菜。多轮在线 RL 比 SFT 难十倍——没人能现场陪你跑几万局。所以得先训一个 User 模拟器:- 输入种子 profile:黑海 / 金海 / 银海等级、历史偏好、过敏忌口、是否「薅羊毛型选手」……- 第一轮 Agent 出招后,模拟器接力生成第二轮回应,往返多轮- profile 里塞一个 「结束点餐」special token,控制对话什么时候自然停下有了这个模拟器,才能稳定 rollout 出多轮 trajectory 喂 RL。面试官追问多轮RL的reward怎么设计?我的思路是全部做成 verifiable reward,避免 reward hacking:符合历史人均消费客单价+100分,点餐分量合理+80分,荤素分布合理或符合历史分布+60分,命中特殊需求轮次奖励+120分。用pav信用算法分配考虑turn级的分配,,引导模型循序渐进引导式点单——而不是一上来甩一整本菜单让用户挑。面试官说又追问,这么做的大模型应用真比直接点餐体验好吗?我愣住了,你们招这岗位,不就是要做这个事吗。。。为啥还要质疑存在的合理性?我只能硬着头皮答😅面试官说:谢谢你的时间。后续是挂了
查看3道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务