大家好,我是小富~有次上线监控告警突然炸了,Kafka 订单 Topic 消息积压量突破 10 万条,下游支付服务拿不到数据,部分用户付款后一直显示处理中。紧急登录集群排查,发现消费者组明明有 3 个节点,却只有 1 个在正常消费,原来 10 分钟前触发了 Rebalance,另外两个节点还卡在分区重新分配的状态,导致消费能力直接砍半。所以我的经验是:Kafka出现消息积压、重复、丢失这类问题,直接看是否有Rebalance,能解决大部分问题。什么时候会触发 Rebalance?Rebalance 本质是消费者组内分区与消费者的重新分配,只有当消费者、分区的对应关系被打破时才会触发,下边咱们看...