本文最后更新于：2024年3月18日凌晨

Dubbo 高可用

宕机时的处理

监控中心宕掉不影响使用，只是丢失部分采样数据。
数据库宕掉后，注册中心仍能通过缓存提供服务列表查询，但不能注册新服务。
注册中心对等集群，任意一台宕掉后，将自动切换到另一台。
注册中心全部宕掉后，服务提供者和服务消费者仍能通过本地缓存通讯。
服务提供者无状态，任意一台宕掉后，不影响使用。
服务提供者全部宕掉后，服务消费者应用将无法使用，并无限次重连等待服务提供者恢复。

负载均衡

Dubbo 提供的集群负载均衡策略，在集群负载均衡时，Dubbo 提供了多种均衡策略，缺省为 random 随机调用。
具体实现上，Dubbo 提供的是客户端负载均衡，即由 Consumer 通过负载均衡算法得出需要将请求提交到哪个 Provider 实例，可以自行扩展负载均衡策略，参见：负载均衡扩展

负载均衡策略

目前 Dubbo 内置了如下负载均衡算法，用户可直接配置使用：

算法	特性	备注
RandomLoadBalance	加权随机	默认算法，默认权重相同
RoundRobinLoadBalance	加权轮询	借鉴于 Nginx 的平滑加权轮询算法，默认权重相同，
LeastActiveLoadBalance	最少活跃优先 + 加权随机	背后是能者多劳的思想
ShortestResponseLoadBalance	最短响应优先 + 加权随机	更加关注响应速度
ConsistentHashLoadBalance	一致性 Hash	确定的入参，确定的提供者，适用于有状态请求

Random

加权随机，按权重设置随机概率。
在一个截面上碰撞的概率高，但调用量越大分布越均匀，而且按概率使用权重后也比较均匀，有利于动态调整提供者权重。
缺点：存在慢的提供者累积请求的问题，比如：第二台机器很慢，但没挂，当请求调到第二台时就卡在那，久而久之，所有请求都卡在调到第二台上。

RoundRobin

加权轮询，按公约后的权重设置轮询比率，循环调用节点。
缺点：同样存在慢的提供者累积请求的问题。

加权轮询过程过程中，如果某节点权重过大，会存在某段时间内调用过于集中的问题。

例如 ABC 三节点有如下权重：{A: 3, B: 2, C: 1}，那么按照最原始的轮询算法，调用过程将变成：A A A B B C

对此，Dubbo 借鉴 Nginx 的平滑加权轮询算法，对此做了优化，调用过程可抽象成下表：

轮前加和权重本轮胜者合计权重轮后权重（胜者减去合计权重）

起始轮 \ \ A(0), B(0), C(0)

A(3), B(2), C(1) A 6 A(-3), B(2), C(1)

A(0), B(4), C(2) B 6 A(0), B(-2), C(2)

A(3), B(0), C(3) A 6 A(-3), B(0), C(3)

A(0), B(2), C(4) C 6 A(0), B(2), C(-2)

A(3), B(4), C(-1) B 6 A(3), B(-2), C(-1)

A(6), B(0), C(0) A 6 A(0), B(0), C(0)

我们发现经过合计权重（3+2+1）轮次后，循环又回到了起点，整个过程中节点流量是平滑的，且哪怕在很短的时间周期内，概率都是按期望分布的。

如果用户有加权轮询的需求，可放心使用该算法。

轮前加和权重	本轮胜者	合计权重	轮后权重（胜者减去合计权重）
起始轮	\	\	`A(0), B(0), C(0)`
`A(3), B(2), C(1)`	A	6	`A(-3), B(2), C(1)`
`A(0), B(4), C(2)`	B	6	`A(0), B(-2), C(2)`
`A(3), B(0), C(3)`	A	6	`A(-3), B(0), C(3)`
`A(0), B(2), C(4)`	C	6	`A(0), B(2), C(-2)`
`A(3), B(4), C(-1)`	B	6	`A(3), B(-2), C(-1)`
`A(6), B(0), C(0)`	A	6	`A(0), B(0), C(0)`

LeastActive

加权最少活跃调用优先，活跃数越低，越优先调用，相同活跃数的进行加权随机，活跃数指调用前后计数差（针对特定提供者：请求发送数 - 响应返回数），表示特定提供者的任务堆积量，活跃数越低，代表该提供者处理能力越强。
使慢的提供者收到更少请求，因为越慢的提供者的调用前后计数差会越大，相对的，处理能力越强的节点，处理更多的请求。

ShortestResponse

加权最短响应优先，在最近一个滑动窗口中，响应时间越短，越优先调用，相同响应时间的进行加权随机。
使得响应时间越快的提供者，处理更多的请求。
缺点：可能会造成流量过于集中于高性能节点的问题。
这里的响应时间 = 某个提供者在窗口时间内的平均响应时间，窗口时间默认是 30s

ConsistentHash

一致性 Hash，相同参数的请求总是发到同一提供者。
当某一台提供者挂时，原本发往该提供者的请求，基于虚拟节点，平摊到其它提供者，不会引起剧烈变动。
算法参见：Consistent Hashing | WIKIPEDIA
缺省只对第一个参数 Hash，如果要修改，请配置 <dubbo:parameter key="hash.arguments" value="0,1" />
缺省用 160 份虚拟节点，如果要修改，请配置 <dubbo:parameter key="hash.nodes" value="320" />

配置

服务端服务级别

1	`<dubbo:service interface="..." loadbalance="roundrobin" />`

客户端服务级别

1	`<dubbo:reference interface="..." loadbalance="roundrobin" />`

服务端方法级别

1
2
3

<dubbo:service interface="...">
    <dubbo:method name="..." loadbalance="roundrobin"/>
</dubbo:service>

客户端方法级别

1
2
3

<dubbo:reference interface="...">
    <dubbo:method name="..." loadbalance="roundrobin"/>
</dubbo:reference>

服务降级

可以通过服务降级功能临时屏蔽某个出错的非关键服务，并定义降级后的返回策略。
向注册中心写入动态配置覆盖规则：

1
2
3

RegistryFactory registryFactory = ExtensionLoader.getExtensionLoader(RegistryFactory.class).getAdaptiveExtension();
Registry registry = registryFactory.getRegistry(URL.valueOf("zookeeper://zookeeper:2181"));
registry.register(URL.valueOf("override://0.0.0.0/com.foo.BarService?category=configurators&dynamic=false&application=foo&mock=force:return+null"));

mock=force:return+null：消费方对该服务的方法调用都直接返回 null 值，不发起远程调用，用来屏蔽不重要服务不可用时对调用方的影响。
mock=fail:return+null：消费方对该服务的方法调用在失败后，再返回 null 值，不抛异常，用来容忍不重要服务不稳定时对调用方的影响。

集群容错

在集群调用失败时，Dubbo 提供了多种容错方案，缺省为 failover 重试。

cluster

各节点关系:

这里的 Invoker 是 Provider 的一个可调用 Service 的抽象，Invoker 封装了 Provider 地址及 Service 接口信息。

Directory 代表多个 Invoker，可以把它看成 List<Invoker>，但与 List 不同的是，它的值可能是动态变化的，比如注册中心推送变更。

Cluster 将 Directory 中的多个 Invoker 伪装成一个 Invoker，对上层透明，伪装过程包含了容错逻辑，调用失败后，重试另一个。

Router 负责从多个 Invoker 中按路由规则选出子集，比如读写分离，应用隔离等。

LoadBalance 负责从多个 Invoker 中选出具体的一个用于本次调用，选的过程包含了负载均衡算法，调用失败后，需要重选。

集群容错模式

Failover Cluster

失败自动切换，当出现失败，重试其它服务器，通常用于读操作，但重试会带来更长延迟，可通过 retries="2" 来设置重试次数（不含第一次）
重试次数配置如下：

1	`<dubbo:service retries="2" />`

或。

1	`<dubbo:reference retries="2" />`

或。

1
2
3

<dubbo:reference>
    <dubbo:method name="findFoo" retries="2" />
</dubbo:reference>

Failfast Cluster

快速失败，只发起一次调用，失败立即报错，通常用于非幂等性的写操作，比如新增记录。

Failsafe Cluster

失败安全，出现异常时，直接忽略，通常用于写入审计日志等操作。

Failback Cluster

失败自动恢复，后台记录失败请求，定时重发，通常用于消息通知操作。

Forking Cluster

并行调用多个服务器，只要一个成功即返回，通常用于实时性要求较高的读操作，但需要浪费更多服务资源，可通过 forks="2" 来设置最大并行数。

Broadcast Cluster

广播调用所有提供者，逐个调用，任意一台报错则报错，通常用于通知所有提供者更新缓存或日志等本地资源信息。
现在广播调用中，可以通过 broadcast.fail.percent 配置节点调用失败的比例，当达到这个比例后，BroadcastClusterInvoker 将不再调用其他节点，直接抛出异常，broadcast.fail.percent 取值在 0~100 范围内，默认情况下当全部调用失败后，才会抛出异常，broadcast.fail.percent 只是控制的当失败后是否继续调用其他节点，并不改变结果（任意一台报错则报错）,broadcast.fail.percent 参数在 dubbo2.7.10 及以上版本生效。
Broadcast Cluster 配置broadcast.fail.percent
broadcast.fail.percent=20代表了当 20% 的节点调用失败就抛出异常，不再调用其他节点。

1	`@reference(cluster = "broadcast", parameters = {"broadcast.fail.percent", "20"})`

Available Cluster

调用目前可用的实例（只调用一个），如果当前没有可用的实例，则抛出异常，通常用于不需要负载均衡的场景。

Mergeable Cluster

将集群中的调用结果聚合起来返回结果，通常和group一起配合使用，通过分组对结果进行聚合并返回聚合后的结果，比如菜单服务，用group区分同一接口的多种实现，现在消费方需从每种group中调用一次并返回结果，对结果进行合并之后返回，这样就可以实现聚合菜单项。

ZoneAware Cluster

多注册中心订阅的场景，注册中心集群间的负载均衡，对于多注册中心间的选址策略有如下四种。

指定优先级:preferred="true"注册中心的地址将被优先选择。

1	`<dubbo:registry address="zookeeper://127.0.0.1:2181" preferred="true" />`

同中心优先：检查当前请求所属的区域，优先选择具有相同区域的注册中心。

1	`<dubbo:registry address="zookeeper://127.0.0.1:2181" zone="beijing" />`

权重轮询：根据每个注册中心的权重分配流量。

1
2
3

<dubbo:registry id="beijing" address="zookeeper://127.0.0.1:2181" weight="100" />

<dubbo:registry id="shanghai" address="zookeeper://127.0.0.1:2182" weight="10" />

缺省值：选择一个可用的注册中心。

集群模式配置

按照以下示例在服务提供方和消费方配置集群模式。

1	`<dubbo:service cluster="failsafe" />`

或。

1	`<dubbo:reference cluster="failsafe" />`

Software BackEnd Distributed Dubbo

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Dubbo 原理上一篇

红黑树（RBT) 下一篇