PPIO - Serverless AI 后端 - 一面 一小时

让 AI 梳理的录音,部分可能会不太准确

Q1: 百度这边推理优化用的什么框架,主要做了什么?

使用框架: SGLang

主要工作:

  1. FP8量化: 显存降低50%,吞吐量提升40-50%,困惑度变化<2%
  2. Chunked Prefill调优: 升级SGLang到0.5.4版本,默认开启chunked prefill, P999延迟从150ms降到120ms
  3. CUDA Graph优化: 解决FP8量化模型无法启用Piecewise的问题,通过注册自定义kernel到FakeTensor。P999延迟降到53ms(降低55%),QPS从30提升到60
  4. 并发稳定性: 修复TokenizerManager高并发内存越界问题

Q2: GPU自动化测试怎么做的?

基于已下线rank模型改造,部署到容器中。发包机和目标服务通过信号传递协同控制,定时轮询容器状态,自动采集性能数据。

测试的是L4卡的模型推理性能,不涉及多卡通信。

Q3: 有测过多卡通信性能吗?

没有接触过。目前只做了单卡/单机的模型推理性能测试,没涉及多机多卡部署和卡间通信测试。

Q4: 有做输出质量的benchmark测试吗?

做得比较少。因为query模型是embedding模型,不是生成式模型,只需要保证和策略提供的 baseline 有 99.95% 以上相似度即可。

Q5: 这个Etcd安全漏洞怎么回事,怎么解决的?

问题: 被扫描发现Etcd可无密码访问

原因: Tarot Proxy配置传递流程不规范,认证配置没有正确传递,Etcd V2 V3 鉴权不统一,误导排查

解决: 重构RouteTable配置解析逻辑,规范化配置传递流程,省去中间链路

Q6: 没考虑用mTLS双向认证吗?

考虑过但没采用。主要原因:

  • TLS握手会增加延迟
  • 证书管理运维成本高
  • 内网环境已有网络隔离保障

Q7: 除了百度搜索这边还有什么对你帮助比较大的项目?

腾讯云实习: 提升了链路排查问题的能力

: 门神项目流量统计不一致,通过时间窗口定位组件,发现网关配置max packet size导致2M+请求包绕过转发,造成防护绕过。

开源项目: Apache Seata和OSPP开源之夏,在分布式事务和系统设计方面有收获

Q8: 大包转发怎么做的,有考虑性能优化吗?

方案: 在网关入口部署MQ转移大包,再接入门神。单服务在SA2(4C8G)上达到2400+/分钟转发吞吐量。

性能优化: 主要在应用层做了消息队列削峰、异步处理等优化。

不足: 内核态用户态切换没有深入考虑过优化。

Q9: 开源之夏项目主要做了什么?

基于Seata Saga的AI Agent生态建设:

  1. Agent Hub注册中心: 基于Seata NamingServer实现能力发现,结合LLM和Milvus向量数据库优化匹配
  2. A2A通信协议: 支持JSON-RPC和gRPC,让Agent之间相互调用
  3. 智能工作流编排: 基于ReAct框架分析需求,通过多轮对话查询Agent能力,编排成JSON格式DAG图
  4. DSL代码脚手架: 自动生成Agent Skill框架,采用Provider模式降低接入成本

Q10: 有调研自动生成补充agent能力的方案吗?

调研过两个方向:

  1. DSL约束代码生成: 用DSL描述Agent行为约束,让大模型生成代码框架(已实现)
  2. 动态能力补充: 缺少能力时动态创建Agent(仅调研,未落地),担心代码质量和安全性,调试维护成本高,目前倾向于预先注册能力而非动态生成

#面经#
全部评论
直接高级工程师吧,tql
点赞 回复 分享
发布于 昨天 13:56 福建
你为何如此强
点赞 回复 分享
发布于 昨天 13:31 广东

相关推荐

昨天 21:59
上海大学 Java
点赞 评论 收藏
分享
12-01 15:01
已编辑
门头沟学院 Java
你被哪些公司挂了?
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务