让 AI 梳理的录音,部分可能会不太准确Q1: 百度这边推理优化用的什么框架,主要做了什么?使用框架: SGLang主要工作:FP8量化: 显存降低50%,吞吐量提升40-50%,困惑度变化<2%Chunked Prefill调优: 升级SGLang到0.5.4版本,默认开启chunked prefill, P999延迟从150ms降到120msCUDA Graph优化: 解决FP8量化模型无法启用Piecewise的问题,通过注册自定义kernel到FakeTensor。P999延迟降到53ms(降低55%),QPS从30提升到60并发稳定性: 修复TokenizerManager高并...