PPIO - Serverless AI 后端 - 一面 一小时

让 AI 梳理的录音,部分可能会不太准确

Q1: 百度这边推理优化用的什么框架,主要做了什么?

使用框架: SGLang

主要工作:

  1. FP8量化: 显存降低50%,吞吐量提升40-50%,困惑度变化<2%
  2. Chunked Prefill调优: 升级SGLang到0.5.4版本,默认开启chunked prefill, P999延迟从150ms降到120ms
  3. CUDA Graph优化: 解决FP8量化模型无法启用Piecewise的问题,通过注册自定义kernel到FakeTensor。P999延迟降到53ms(降低55%),QPS从30提升到60
  4. 并发稳定性: 修复TokenizerManager高并发内存越界问题

Q2: GPU自动化测试怎么做的?

基于已下线rank模型改造,部署到容器中。发包机和目标服务通过信号传递协同控制,定时轮询容器状态,自动采集性能数据。

测试的是L4卡的模型推理性能,不涉及多卡通信。

Q3: 有测过多卡通信性能吗?

没有接触过。目前只做了单卡/单机的模型推理性能测试,没涉及多机多卡部署和卡间通信测试。

Q4: 有做输出质量的benchmark测试吗?

做得比较少。因为query模型是embedding模型,不是生成式模型,只需要保证和策略提供的 baseline 有 99.95% 以上相似度即可。

Q5: 这个Etcd安全漏洞怎么回事,怎么解决的?

问题: 被扫描发现Etcd可无密码访问

原因: Tarot Proxy配置传递流程不规范,认证配置没有正确传递,Etcd V2 V3 鉴权不统一,误导排查

解决: 重构RouteTable配置解析逻辑,规范化配置传递流程,省去中间链路

Q6: 没考虑用mTLS双向认证吗?

考虑过但没采用。主要原因:

  • TLS握手会增加延迟
  • 证书管理运维成本高
  • 内网环境已有网络隔离保障

Q7: 除了百度搜索这边还有什么对你帮助比较大的项目?

腾讯云实习: 提升了链路排查问题的能力

: 门神项目流量统计不一致,通过时间窗口定位组件,发现网关配置max packet size导致2M+请求包绕过转发,造成防护绕过。

开源项目: Apache Seata和OSPP开源之夏,在分布式事务和系统设计方面有收获

Q8: 大包转发怎么做的,有考虑性能优化吗?

方案: 在网关入口部署MQ转移大包,再接入门神。单服务在SA2(4C8G)上达到2400+/分钟转发吞吐量。

性能优化: 主要在应用层做了消息队列削峰、异步处理等优化。

不足: 内核态用户态切换没有深入考虑过优化。

Q9: 开源之夏项目主要做了什么?

基于Seata Saga的AI Agent生态建设:

  1. Agent Hub注册中心: 基于Seata NamingServer实现能力发现,结合LLM和Milvus向量数据库优化匹配
  2. A2A通信协议: 支持JSON-RPC和gRPC,让Agent之间相互调用
  3. 智能工作流编排: 基于ReAct框架分析需求,通过多轮对话查询Agent能力,编排成JSON格式DAG图
  4. DSL代码脚手架: 自动生成Agent Skill框架,采用Provider模式降低接入成本

Q10: 有调研自动生成补充agent能力的方案吗?

调研过两个方向:

  1. DSL约束代码生成: 用DSL描述Agent行为约束,让大模型生成代码框架(已实现)
  2. 动态能力补充: 缺少能力时动态创建Agent(仅调研,未落地),担心代码质量和安全性,调试维护成本高,目前倾向于预先注册能力而非动态生成

#面经#
全部评论
二面呢快点
点赞 回复 分享
发布于 2025-12-04 16:35 广东
看不懂
点赞 回复 分享
发布于 2025-12-03 08:22 上海
直接高级工程师吧,tql
点赞 回复 分享
发布于 2025-12-02 13:56 福建
你为何如此强
点赞 回复 分享
发布于 2025-12-02 13:31 广东

相关推荐

📍面试公司:小米🕐面试时间:2026/03/26(二十分钟草草收场,都不想去看结果就知道挂了)💻面试岗位:大模型推理优化❓面试问题:一、自我介绍二、八股问题拷打,其实上来就是手撕1、直接在编辑器上手撕MGA,要求写出init、forward、注意力层&nbsp;&nbsp;&nbsp;——丢人现眼了,基本不会写2、追问,不会写的话讲一下整个过程,输入到输出怎么样的?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;——讲了讲transformer,注意力机制3、vllm和sglang的底层代码有看过吗?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;——没看过(其实看过,但我不敢说,怕叫我写)4、kv&nbsp;cache有哪些加载方式?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;——在胡言乱语,啊这个,啊那个5、PD分离机制是干什么的?你怎么实现的?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;——唯一能回答的问题6、有没有用vllm部署过模型?吞吐量是多少?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;——脑子昏了,沉默(跑了demo,没测过)7、MTP(可能是MCP?没听清)是什么,介绍一下?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;——我估计想问Medusa?反正我没回答,沉默。到这他问不下去了。。。三、反问两个人尴尬一笑,没什么要问的了。🙌面试感想:应该是史上最无悬念的秒挂,第一个手撕不会之后我已经晕头转向了,加上昨天熬夜到五点,到后面我都有点不好意思了,感觉在浪费他的时间,在这里跟他道个歉😀。十月到现在算上开发+infra可能面了二十多家吧,大部分都是秒挂,感觉车企infra这块的要求都特别高吧,问的特别细,就是最新的技术一定都要掌握,这一块技术迭代感觉特别特别快,光背八股面经给我感觉不太行。鼠鼠也累了,但自觉已经尽力了。也感谢这些至少还给机会面试的公司吧,有些简历直接投垃圾桶里了。(希望下一届的同学早早准备,不要像鼠鼠一样还在为春招奔波)。
查看8道真题和解析
点赞 评论 收藏
分享
评论
2
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务