在开发大模型(LLM)相关应用时,我们经常会遇到一个棘手的问题:随着流量的增加,原本响应迅速的 Web 服务,突然变得极其缓慢,甚至出现大面积的 502/504 超时。 很多开发者第一时间会去检查 Redis、数据库或模型推理接口,却忽略了一个架构上的隐患:你是否将 AI 接口调用直接塞进了公共的业务线程池中? 一、 致命的“资源枯竭”:一个真实的事故现场 假设你正在使用 Spring Boot (Tomcat) 开发一个 AI 聊天机器人。你的系统接收请求并执行以下两步: 业务操作:查询用户配置(耗时 10ms)。 AI 调用:请求 GPT-4 API(耗时 5s)。 Tomcat 默认...