Dubbo消费端调用全过程实现分析-负载均衡与集群容错

本文将对调用过程中涉及到核心的负载均衡、集群容错的实现进行分析。

一、负载均衡

负载均衡的目的是保证服务提供者被调用的流量能够平均的分布,避免流量倾斜导致某些节点负载过高而影响可用性。简单的说,在存在多个服务提供者的情况下,消费端在每次发起调用时要通过合适的策略选择一个节点进行调用,而这种合适的选择策略就是所说的负载均衡策略。要注意的是,我们在说负载均衡时,有一个前提就是要存在1个以上的服务提供者。

Dubbo提供了五种常见的负载均衡策略,分别是随机、轮询、最少活跃调用、一致性Hash、最快响应,同时,使用者也可以自行扩展实现负载均衡策略。下面对Dubbo提供的四种负载均衡实现方案进行说明。

2.1 随机-Random LoadBalance

Dubbo默认的负载均衡机制是随机,随机负载均衡的实现可以在RandomLoadBalance类中查看。

假定存在n个可用的节点,则实现的步骤:

  • 为每一个节点生成权重weight,分别记为w1,w2....wn
  • 如果w1=w2=...=wn,或sum(w1+w2+...+wn)=0,则通过ThreadLocalRandom.current().nextInt(n)随机获取节点,每个节点被选中的概率是相同的
  • 反之(所有节点的权重不是全部一样并且总权重累计值大于0),所有权重之和记为totalWeight,则通过ThreadLocalRandom.current().nextInt(totalWeight)生成一个随机数offset,然后循环遍历节点依次使用offset减去各节点的权重值,直至offset被减至小于0时,就选取该节点

下面举例说明,假设存在3个提供者节点,最终计算出的权重分别为w1=100,w2=150,w3=200,如下图:



最终,会在范围内[0,450)生成一个随机数,随机数落在[0,100)范围内则取节点1,落在[100,250)则取节点2,落在[250,450)则取节点3。

那么,每个节点的权重值怎么来的?

首先是配置的权重weight,权重值的配置是在服务提供方,可通过API配置ServiceConfig.setWeight(xxx)、xml配置<dubbo:Service weight="xxx">等方式进行设置。如果没有主动配置,默认的权值就是100。

其次是预热时间warmup,默认的为10分钟,或者通过配置服务提供方的warmup(单位毫秒)。

最后是,启动的时间uptime,通过当前时间减去提供者启动的时间(provider的url里的参数timestamp)。

最终权重的计算公式为:



如果最终计算的finalWeight小于1时为兜底取1。

基于Dubbo随机负载均衡策略的实现,我们可以通过合理的权重配置来达到流量分配的效果,同时,基于服务启动的预热时间,避免让服务在启动之初就处于高负载状态,来提升调用的稳定性。

2.2 轮询-RoundRobin LoadBalance

轮询策略,即依次请求各节点,Dubbo实现的方式可在RoundRobinLoadBalance类中查看。

实现的关键是RoundRobinLoadBalance的内部类WeightedRoundRobin,该类存在三个成员变量:

  • weight:节点权值
  • current:节点当前的权重,用于选择执行节点,选择最大的current的节点用于执行
  • lastUpate:最近更新时间,当节点数量变化时,用于判断是否从节点map中移出

选择过程如下:

  • 轮询所有节点,计算所有节点的current = current + weight,过程中会累积计算节点总权重totalWeight
  • 选取节点中cur最大的节点用于调用候选节点
  • 更新选中节点的current值,即current=current-totalWeight

轮询策略存在一个缺点是当其中某个节点响应时间较长时,请求还是会轮流的到此节点继续请求。要注意的是,轮询策略对各节点的权重计算与随机策略的权重计算方式是一样的。所以,本质上来说轮询与随机两种负载均衡的策略可以归为同一类。

针对这类策略存在的问题,就有最少活跃调用策略。

2.3 最少活跃调用数-LeastActive LoadBalance

最少活跃调用数,从字面意思就很好理解,即选择节点时会优先选择正在被调用的数量最少的节点。

第一个关键点是怎么去获取每个提供端节点的正在被调用的数量?

在LeastActiveLoadBalance类中可以看到获取active的代码为:

int active = RpcStatus.getStatus(invoker.getUrl(), invocation.getMethodName()).getActive();

由上可知活跃连接数量active是在RpcStatus中,通过查找发现在ActiveLimitFilter中会在调用前将RpcStatus中将连接数量加1,请求结束后会减1。具体可以查看ActiveLimitFilter代码,此处不详细展开介绍。

因此,我们在使用LeastActive LoadBalance这种负载均衡策略时,需要在消费端配置filter="activelimit"。如果没有配置,实际上还是根据权重随机选择策略。

Dubbo实现最少活跃调用数的说明:

  • 如果存在最少活跃调用数的节点,则选择此节点
  • 如果存在多个相同的最少活跃调用数的节点,则通过权重加随机值计算选择其中一个

2.4 一致性Hash-ConsistentHash LoadBalance

我们对Hash并不陌生,比如常见的HashMap,分库分表中使用Hash对数据进行分片等。简单来说,通过对给定的参数进行hash函数求值得到hash值,然后对节点进行取模选择。其特点是对于相同的参数,最后都能找到同一个目标节点,而且效率较高。但使用普通的Hash方式做负载均衡策略存在一个缺点,当集群进行扩容或缩容时,集群节点数发生变化,请求分布可能会发生剧烈抖动,也就是大部分请求都会改变请求的目的节点。如下所示:



现有4个服务提供节点,四个请求假设通过hash函数得出的值分别是100,101,102,103,然后与4取模就分别映射到node0,node1,node2,node3,此时如果节点node3挂掉了,则会出现如下情况



可见在hash值不变的情况下,每一个请求的请求节点都发生变化,这样就不符合hash要达到的预期效果。

那么,什么是一致性Hash?一致性Hash是指将各节点和数据都映射到一个首尾相连的哈希环上。将存储节点和数据都映射到一个首尾相连的哈希环上,计算出的Hash值依照顺时针方向找到相应的节点。为了避免节点变化时导致发生数据倾斜,通常会增加虚拟节点,Dubbo在实现时默认设置160个虚拟节点,也可通过hash.nodes进行设置。 关于一致性hash的介绍已有很多,此处不展开。

2.5 最短响应时间-ShortestResponseLoadBalance

最短响应时间策略可以说是在最少活跃连接的基础上衍生出来的,这里的响应时间指的是某一个提供方节点处理完当前活跃的请求所需要的时间。这两种策略的实现方式也基本一致,区别就在于最短响应策略需要关注节点响应的值是怎么计算的。以下为ShortestResponseLoadBalance类中关于计算节点响应时间的代码:

// ShortestResponseLoadBalance.java RpcStatus rpcStatus = RpcStatus.getStatus(invoker.getUrl(), invocation.getMethodName()); // Calculate the estimated response time from the product of active connections and succeeded average elapsed time. long succeededAverageElapsed = rpcStatus.getSucceededAverageElapsed(); int active = rpcStatus.getActive(); long estimateResponse = succeededAverageElapsed * active;

基本的数据来源还是最少活跃连接中提到的RpcStatus,通过历史的数据计算平均每次成功请求的耗时,然后再与活跃连接数active相乘得出的值就是节点的预估响应时间,然后在所有节点的预估响应时间中选择一个最小值。如果存在相同的就根据权重加随机选择,与最少活跃连接处理的方式一致。

2.6 粘滞连接

在负载均衡之前会去判断是否已配置了粘滞连接,如果配置了就会选择已调用过的invoke进行调用。

粘滞连接用于有状态服务,尽可能让客户端总是向同一提供者发起调用,除非该提供者挂了,再连另一台。

粘滞连接将自动开启延迟连接,以减少长连接数。

可通过如下配置:

<dubbo:reference id="xxxService" interface="com.xxx.XxxService" sticky="true" />

以上就是关于Dubbo负载均衡的相关学习内容,在集群环境下,有了负载均衡选择调用节点后,并不能保证每一次调用都能成功,由于网络总是存在不确认性、服务也存在故障的可能,那么就需要用对调用异常的情况进行容错处理的机制。

下面来介绍Dubbo的集群容错机制。

二、集群容错

Dubbo实现的集群容错有6种,从代码实现及思想来看都不算复杂,此处就不详细展开。总结如下:

容错模式 特点 使用场景
Failover 调用失败后,默认重试2次 通常用于读操作,但重试会带来更长延迟
Failfast 调用1次,异常时会往上抛出异常 通常用于非幂等的写入操作
Failsafe 调用1次,当调用失败时,打印错误日志,并返回一个空的结果 一般用于写入审计日志等
Failback 调用失败时,会记录失败请求并使用定时器去重试,默认间隔5s,重试3次 通常用于消息通知操作
Forking 并行调用多个服务器,只要一个成功即返回 通常用于实时性要求较高的读操作,但需要浪费更多服务资源
Broadcast 广播调用所有提供者,逐个调用,任意一台报错则报错。 通常用于通知所有提供者更新缓存或日志等本地资源信息
#Java##程序员#
全部评论
集群和负载均衡确实都是比较关键的内容
点赞 回复 分享
发布于 2022-10-08 18:00 山西

相关推荐

04-26 14:36
已编辑
郑州信息科技职业学院 Java
由于高考成绩不是很理想,听取了张雪峰老师的建议,优先选了专业并且当时的想法就是选一个能赚钱的专业,于是最终选择了报了一个能收留我的有计算机专业的学校。当时听张雪峰老师说河南的学习氛围很好,所以就想去体验一下,事实雀食如张雪峰老师所说,大家都一股脑的铺在学习这条路上。可能是因为那边氛围导致的吧,我一开始想的也是卷学习卷绩点,所以大一的时候就一直在学习硬试教育的一些东西,学期结束了,排名出来的时候中上水平吧,据我了解保研的只有前5名可能会有机会,当时的心里就想着,我这成绩再卷也卷不到哪去了,并且保研也无望了,总结的说,一些事情只有真正做了才知道是不是自己所追求的。说了很多废话吧,剩下的关于学校的就长话短说了吧。大二很多专业课基本上要从早八上到晚上,但基本上我都是不去,不如自学现在新媒体技术这么发达,并且还可以学一下自己需要的技术栈,由于学校的课程原因对其他的技术栈不是很了解,所以,一心就投入在Java这个方向了,但是,Python也会学一下,这是因为加入实验室,实验室老师是做人工智能方向的缘故。现在回想,我大二当时还是学的太慢了,还有就是信息差太大了,出来工作之后才发现有些佬们已经大二就出来实习,并且八股就背的滚瓜烂熟了。只能说这里的学习氛围很好吧,走廊里都是背书刷题的声音,跟身边的同学和实验室的同学谈是否直接就业的事,他们要么都是说考研,要么对直接就业很含糊,可能是因为觉得自己学的还不够吧,我想说,学的不够就干中学呗,反正,我先迈出去这步再说。到了大三上还是没有找工作的打算,因为身边的人也都还没有这个意识吧,现在跟了身边的同事聊天才知道,我的信息差太大了。到了大三下刚开始,我才开始正式的踏上求职路,当时的信息差还是很大的,根本就不敢碰瓷大厂,想着有一个公司能要再说吧,并且地域也限制的很死,只想着在本地找一下,因为怕学校找事(我想这是学校一贯操作了),在本地吧,他们大多数都是接受的线下面,一开始面了一个,可能自己比较摆也很悲观,就显得我很差吧,hr面完就没后续了,最终终于有一个面,并且也展示出自己的自信和对专业的理解了,最后,我也没想着这么多背调公司呀,当个备选什么的就直接去了。也算是我的第一家正式的公司吧(之前都是线上的码农兼职),干多了就发现,这个公司压根学不到东西,并且薪资低的,因为我是第一个进来的计算机实习生,有一个同事干了两三年的吧,带着我做的时候是真能学到东西,但是,最后那个同事离职了,我就只能和学艺术的老板直接汇报项目进度,一个学艺术的来指导我这个科班出身的就很离谱的好吧。最后,我也离职了,也跟前同事聊了很久,她说我是她见过大三就能学到这程度,已经超过很多人了,并且她当时在的时候还说我是内定能转正的。并且还说我真的可以去考研。我也仔细思考了一下,我决定让自己沉淀一下再出发吧,先备考了软件设计师,然后期末考,大三暑期的时候就充实自己的简历,并且也认识了一个某东的老哥,也用了内推码,教我了怎么写好简历量化成果之类的,总之,很感谢一路走来帮助我的人吧,并且我在边充实自己的同时也在边投递简历,但当时卡的也很死,要选base地在河南附近的,不像现在全国可飞。面了很多base地在学校附近的,然后,还有一个北京的py和杭州的java,最终就这两个地方给了offer,但是都是实习转正的,不是秋招offer,因为觉得Java的太卷了,然后,面试的时候也会感觉压力很大,所以就把杭州的那个拒了,去了北京的,北京是免费住的房子(三个月这是伏笔),当时觉得环境很好,但是合租室友的作息跟自己的作息不一样就很不习惯,于是,我就想着要是三个月后我一定要找一个单间的哪怕破一点。北京这个公司吧就很像国企的感觉,早九晚五,当月发当月工资,并且干的活接触的数据量都不是很大,就是干了很多杂活,并且mentor和部门的领导都不是技术出身,所以,我能学到的东西少之又少,但是吧,学习是自己的事,而且这部门不是很忙对于实习生来说,我完全可以学自己的东西(前提是不被发现)。到最后这个部门的氛围就很微妙,我遇到不会的问他们我应该怎么做的时候,他们说让我自己想,我当时就想说,神人一个,啥都不说让我自己干,干出来又不满意,你说你让我干py的东西你不会我就不说啥了,让我干无关代码的东西,让我调研项目应该做些什么内容,现在回想都是泪呀,我就这样被欺压的过完了三个月,最后免费住的地方也到期了,伏笔来了,最后,找我谈话说你技术可以了能看出来,因为你也自己独立完成了消息通知那一块内容嘛,但是,由于我们部门干的活比较杂并且我也缺少一些电力相关的一些知识,所以,觉得不合适。(OS:其实我对每一份工作都是真心换真心的,并且这些电力知识我也知道我有一点欠缺所以我也有自己再学习,你们啥也不教我,最后把屎盆子把我头上扣)最后,回到了学校,心态也发生了变化,想着做啥都不如找一个稳定的工作重要,想着回家沉淀吧,少年终有出头日。但是,计划赶不上变化,之前那个同事,内推了我去她现在的公司,并且是做AI应用的也是我想接触的,并且还是与我上家的业务场景类似的,真的感谢那个同事,俗话说:千里马常有而伯乐不常有。并且那里的部门领导也很好,并且说我虽然不是电力相关出身的,但是能做的这样已经很不错了,所以DDDD,由于各种不可抗力因素吧,还是想找一个离家近,然后不是很像小作坊的感觉(这个公司虽然比较小,但是比之前那个大的公司的氛围和待遇一点都不差的好吧甚至更好)。最终,在学校也呆了一个月吧,也陆陆续续面了一个月有一个C厂的面答的都挺好直接就谈薪了,但是风评不好还是保命要紧,还有各种的中小厂面吧,但感觉都不是自己想要的,只是想刷刷面试经验吧(这是某东哥告诉我的,与其一直改简历不如去多面)。最后,在校期间面了一个比较合适的某鸦智能,一直推进到了HR面,但是最后被横向了,开始复盘,被横向了属实是没招了,经历了这么多大风大浪什么场面没见过。过年期间,求职路线关闭,把自己缺少的技术栈和简历中的项目业务理清楚说明白。年过完就要开始加入找工作大军中了,把节前没面完的先面了,节后一开始就是某鸟的HRG面,聊的就很憋屈的感觉,问我技术方面的,说我说的很像AI的(我心想跟你说具体的细节你又说我不想听技术的,说的比较宽泛浅显说我AI)。最后,反正体验感不是很好的结束了吧。说一个星期等通知,等了两个星期才说是通过的(我认为是排名靠前的那些人没去,顺位到我了)。那你既然这样说了,那我就接受吧。还没入职就问我要身份证信息要这要那的,最后都给过去了,说HC调整,要重新review,又又又一次被恶心到了。后面就是陆续的沉淀面试等,我当时的重心已经完全的想着私企没人要,就去试试考公和考央国企了,毕竟我的履历不看学历的话放到电网当中还是可以的。私企的话有一个外企洋里洋气的说话,问我怎么口语这么好?我说这叫智取,宝贝。虽然这个tek外企过了,但是还有一个openday要去线下,来回的衣食住行不是很方便也不是很想去所以就拒绝了没去。后来就收到了,国网网申通过的通知,说实话,我之前问了很多我们学校历年有没有考央国企之类的案例,很显然都不知道,也可以说少之又少吧,于是我就奔赴京城进京赶考,唉,时间不太合适就想着算了吧,再等等,好事多磨,宁缺毋滥吧。金三银四终于等来了面试的机会,这个岗位我只能说我不是很熟悉,但是语言这东西吧都是相通的,重要的是我要把其中的内核搞懂,梳理清楚业务逻辑。最终,来到了这家公司,目前来说是我遇到过最好的了,能有hc且不是要通过实习评估的那种,并且合同期限是三年的,并且是12%的公积金。我认为这就是我所遇到的最好的了。希望能真心换真心吧,不再把我当创口贴/路边一条了,并且也遇到了很多优秀的同事。总的来说,就是要是能重来我要选李白。我肯定会打破这些信息差,后悔知道的太晚,并且跟优秀的人聊天说话真的可以学到很多东西,之前上文提到的贵人就不说了,说说最近的,他是跟我一届,学校后缀甚至不如我的后缀,但是真正了解的才会知道真是佬👍,他跟我找工作的时间线差不多,但是他在中大厂甚至大厂都呆过,因为跟他聊了才知道我当时的信息差有多大,并且毅力也是我甚至…都没有的。并且也听说了他们学校找工作的氛围很好,不像我阿巴阿巴阿巴,只有考研等相关的一些。并且说的一些观点都是很认同的。总之,希望能在这好好的吧,我真的不想经历大起大落了。经历了,打招呼挂,简历挂,一面挂,HR面挂,offer挂的,现在的心态已经放宽了很多了,但是难过还是有的,希望这家公司诚不欺我吧。也祝大家遇到自己的梦中情厂
选择和努力,哪个更重要?
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务