分布式系统概念

本文最后更新于:2024年3月18日 凌晨

分布式系统概念

  • 随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行。
  • 分布式系统是由一组通过网络进行通信,为了完成共同的任务而协调工作的计算机节点组成的系统,其目的是利用更多的机器,处理更多的数据
img

单一应用架构

  • 当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本,此时,用于简化增删改查工作量的数据访问框架(ORM)是关键。
img
  • 优点:适用于小型网站,小型管理系统,将所有功能都部署到一个功能里,简单易用。
  • 缺点
    • 性能扩展比较难。
    • 协同开发问题。
    • 不利于升级维护。

垂直应用架构

  • 当访问量逐渐增大,单一应用增加机器带来的加速度越来越小,将应用拆成互不相干的几个应用,以提升效率,此时,用于加速前端页面开发的Web框架(MVC)是关键。
img
  • 优点:通过切分业务来实现各个模块独立部署,降低了维护和部署的难度,团队各司其职更易管理,性能扩展也更方便,更有针对性。
  • 缺点:公用模块无法重复利用,开发性的浪费。

分布式服务架构

  • 当垂直应用越来越多,应用之间交互不可避免,将核心业务抽取出来,作为独立的服务,逐渐形成稳定的服务中心,使前端应用能更快速的响应多变的市场需求,此时,用于提高业务复用及整合的**分布式服务框架(RPC)**是关键。
img

流动计算架构

  • 当服务越来越多,容量的评估,小服务资源的浪费等问题逐渐显现,此时需增加一个调度中心基于访问压力实时管理集群容量,提高集群利用率,此时,用于提高机器利用率的资源调度和治理中心(SOA)[ Service Oriented Architecture]是关键。
img

RPC

  • RPC(Remote Procedure Call)是指远程过程调用,是一种进程间通信方式,是一种技术的思想,而不是规范,它允许程序调用另一个地址空间(通常是共享网络的另一台机器上)的过程或函数,而不用程序员显式编码这个远程调用的细节。

RPC基本原理

img

运行步骤解析

img

强一致性/弱一致性/最终一致性

  • 强一致性:任何一次读都能读到某个数据的最近一次写的数据,系统中的所有进程,看到的操作顺序,都和全局时钟下的顺序一致,简言之,在任意时刻,所有节点中的数据是一样的。
  • 弱一致性:数据更新后,如果能容忍后续的访问只能访问到部分或者全部访问不到,则是弱一致性。
  • 最终一致性:不保证在任意时刻任意节点上的同一份数据都是相同的,但是随着时间的迁移,不同节点上的同一份数据总是在向趋同的方向变化,简单说,就是在一段时间后,节点间的数据会最终达到一致状态。

CAP 理论

  • CAP 理论指出对于一个分布式计算系统来说,不可能同时满足以下三点。
    • 一致性:一致性指的是多个数据副本是否能保持一致的特性,在一致性的条件下,系统在执行数据更新操作之后能够从一致性状态转移到另一个一致性状态,对系统的一个数据更新成功之后,如果所有用户都能够读取到最新的值,该系统就被认为具有强一致性。
    • 可用性:在可用性条件下,要求系统提供的服务一直处于可用的状态,对于用户的每一个操作请求总是能够在有限的时间内返回结果。
    • 分区容错性:网络分区指分布式系统中的节点被划分为多个区域,每个区域内部可以通信,但是区域之间无法通信,在分区容忍性条件下,分布式系统在遇到任何网络分区故障的时候,仍然需要能对外提供一致性和可用性的服务,除非是整个网络环境都发生了故障。
  • 权衡
    • 在分布式系统中,分区容忍性必不可少,因为需要总是假设网络是不可靠的,因此,CAP 理论实际上是要在可用性和一致性之间做权衡。
    • 可用性和一致性往往是冲突的,很难使它们同时满足,在多个节点之间进行数据同步时。
      • 为了保证一致性(CP),不能访问未同步完成的节点,也就失去了部分可用性。
      • 为了保证可用性(AP),允许读取所有节点的数据,但是数据可能不一致。
    • Zookeeper 保证的是 CP,对比 Spring Cloud 系统中的注册中心 eruka 实现的是 AP
img

BASE 理论

  • BASE 是 Basically Available(基本可用),Soft-state(软状态)和 Eventually Consistent(最终一致性)三个短语的缩写。
  • BASE 理论是对 CAP 中一致性和可用性权衡的结果,它的核心思想是:即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适当的方式来使系统达到最终一致性。
    • 基本可用:指分布式系统在出现故障的时候,保证核心可用,允许损失部分可用性,例如,电商在做促销时,为了保证购物系统的稳定性,部分消费者可能会被引导到一个降级的页面。
    • 软状态:指允许系统中的数据存在中间状态,并认为该中间状态不会影响系统整体可用性,即允许系统不同节点的数据副本之间进行同步的过程存在时延。
    • 最终一致性:
      • 最终一致性强调的是系统中所有的数据副本,在经过一段时间的同步后,最终能达到一致的状态。
      • ACID 要求强一致性,通常运用在传统的数据库系统上,而 BASE 要求最终一致性,通过牺牲强一致性来达到可用性,通常运用在大型分布式系统中。
      • 在实际的分布式场景中,不同业务单元和组件对一致性的要求是不同的,因此 ACID 和 BASE 往往会结合在一起使用。

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!