真正让人对技术实习改观的,不是第一次把需求写完,而是那次压测刚起量,监控曲线开始抖的时候,会议里有人准备继续往前推,我先说了一句:这版先别急着发。 当时表面上的现象很普通:某条核心链路的响应时间不稳定,偶发超时开始出现。可继续往下看,问题并不只是一段代码慢了,而是下游波动触发上游重试,重试又把链路进一步压紧,局部抖动开始往整个系统放大。 我没有急着盯着某一行代码改,而是先问自己:这到底是什么问题。是容量预估没踩稳,是依赖治理没收住,还是架构设计里缺了一层缓冲?把监控、日志、调用链和最近变更一点点对齐之后,方向才逐渐明确:单点修补不够,必须从超时、重试、隔离和降级一起看。 接下来,方案也不能拍脑...