加强可用性链| ITProPortal

已发表: 2022-01-10

在考虑确保最重要的应用程序和细节的卓越可用性 (HA) 时，您最初相信什么？如果您或您的消费者需要能够在 99.99 pc 的时间内访问这些应用程序，那么首先假设保证对计算和存储源的可访问性是很自然的。如果您在云中使用 SQL Server，例如，您可以配置 Windows 故障转移群集实例 (FCI)，以通过立即将计算和存储负载转移到备用节点来响应计算或存储源的故障故障转移群集。哈麻烦解决了！

但是，如果不是计算或存储方式不成功怎么办？可用性链中有许多反向链接将您和您的买家连接到个人计算和存储资源。您需要考虑所有这些链接，以确保您努力获得 HA 工作经验。

网络可用性

如果您在云中运行您的重要应用程序，您的云支持公司将确定连接您的云基础设施因素的内部网的可用性。 AWS、Azure 和 Google Cloud System 都提供卓越的速度、坚固的内部网络和多条路径，因此核心云网络绝对有能力支持您的 99.99 pc HA 目标。

您只是无法管理购物者如何链接到基于云的主要程序，但您可以控制如何加入它们。您可能正在使用 VPN 网关或专用连接服务，例如 Azure ExpressRoute、AWS Direct Connect 或 Google Direct Interconnect。所有这些解决方案都可以为您提供与云的高速、极低延迟的连接，但它们都提供不同的 SLA——其中许多都暴露了可用性链中的弱反向链接。 Azure ExpressRoute 的标准配置仅提供 99.95 pc 的可用性，确保 AWS Immediate Join 的基本配置甚至更低——仅 99.9 pc 如果提供商可能意外失败，对关键应用程序的可访问性可能会受到比您预期更长的时间限制。事实上，在 Azure 或 AWS 云中为 HA 配置的 VM 可能会继续运行而不会中断 - 但如果由于 ExpressRoute 或立即加入已关闭而无法访问它们，那将是冷酷的轻松和舒适。

您可以为 HA 配置 Azure ExpressRoute 或 AWS Immediate Connect，它只是可以进行组织。您将需要配置至少两条 ExpressRoute 线路和 4 条立即加入线路才能获得 99.99% 的 SLA。如果您在 GCP 上使用类似的提供程序，您将希望使用 Google Immediate Interconnect Assistance for Creation-Stage Applications 而非 Google Immediate Interconnect Services for non-critical Applications 以获得 99.99 pc SLA。

基础设施可用性

但是，即使您支持网络中的单向弱链接，云基础设施本身内部也会继续存在潜在的弱反向链接——在负载平衡器、DNS 服务器、身份和身份验证服务器、网站服务器群等之间。不要忘记 2021 年 10 月 Facebook 的真正公开中断？影响进入 Facebook 内部 DNS 服务器的中断（而不是支持 Facebook 关键业务的生产方法）是导致整个业务瘫痪数小时的可靠因素。您需要有效地查看通用基础架构的这些组件，以确保您已完全配置为 HA。

Google 针对 DNS 服务器解决方案的 SLA 是 100 pc，这是令人鼓舞的，但其针对 Cloud Id 公司的 SLA 仅为 99.9%。同样，AWS 的 Route 53 非公共 DNS 支持努力提供 100% 的 SLA，但其目录解决方案提供的最高水平为 99.9%。 Azure Energetic Directory Fundamental and Quality Products and services 提供 100 pc 的 SLA，但 Azure Active Listing Domain Expert 服务的 SLA 最高为 99.9%。

与社区连接一样，可以采取一些措施来提高支持您重要的基于云的应用程序的内部基础架构的可信度。例如，您可以使用许多区域控制器配置您的 AWS 自然环境，这可以增强 AWS 列表产品和服务的可靠性，接近您所寻找的 99.99% 的可访问性程度。

多云替代方案

然而，在 2021 年 12 月 7 日的 7 小时 AWS 中断中，即使是准备最充分的公司也可能会遇到无法预料的停机时间。在 AWS 中断的情况下，问题不是来自潜在客户正在使用的设备，而是正如 AWS 指出的那样，来自内部社区发生的问题，这些问题“用于托管基础服务，如监控、内部 DNS、授权产品和服务，和 EC2 命令平面的元素。”* 事实上，在某些情况下，客户应用程序一直在其上管理的虚拟机仍然可以运行并完全符合 HA SLA——但由于网关、内部 DNS 产品的问题，客户无法访问他们的应用程序以及服务、负载平衡器和其他部分，其正常运行的能力因内部社区发生的错误的级联后果而受到损害。

当可用性链中的弱反向链接被证明是云本身时，您的应用程序如何继续运行和访问？您在本文中的最大可能性是依赖多云灾难恢复 (DR) 答案。基本上，您将开发一个镜像基础架构来支持您在完全独立的云中最重要的程序。如果您的关键 SQL Server 基础设施在 AWS 上运行，例如，您将在 Azure 或 GCP 上产生类似的 SQL Server 场景，如果 AWS 云离线，您可以手动启动该场景。您将需要选择在 AWS 和 Azure/GCP 环境中运行的 DR 管理解决方案，并且可以快速协调从 AWS 中的 SQL Server 实例到连接到 Azure/GCP 云环境中基础设施的存储的信息复制。如果您确实没有在这两个环境中部署类似的 DR 管理选项，您可能无法在涉及云的情况下适当地复制您的知识。

您还需要在主体和 DR 基础设施之间配置高速数字私有社区 (VPN) 关系。 AWS、Azure 和 GCP 都提供允许安全的云到云链接的 VPN 产品和服务（也有 3rd-get together 替代方案），这将成为您的 DR 管理答案复制您的渠道云基础设施之间的重要信息。当然，如果您在 12 月一直在使用 AWS VPN Remedy，它可能在中断过程中早已离线——但在这种情况下，这没关系。在 AWS 上管理的 DR 管理解决方案会尽快将所有邻域写入操作复制到 DR 基础设施中的存储对应方，因此当 AWS 提供商下线时，DR 软件将复制所有（或几乎所有）重要的 AWS 数据到 DR 基础设施。一旦关键云明显不在离线状态，您将启动 DR 云中的基础架构，它可以开始将消费者获取交付到您的基本目的，而中断可以忽略不计。您可能无法在您所指望的 HA 补救措施不到 5 分钟的时间内启动和管理，但与您经历 7 小时等待 AWS 获得的体验相比，您的操作速度会明显加快其运营重新上线。

软件可用性

从长远来看，配置 HA 就是为了确保应用程序的实质可用性。您可以生成 FCI，以确保您的 VM 和存储的 HA 没有问题。所有云协助供应商都习惯于在该级别上为您提供服务。但是，对于正确的从结论到结论的 HA，您需要提高对可用性链中所有其他反向链接的认识。有些人会比你意识到的更弱，除非你采取过度的方式来加强它们。

Dave Bermingham，高级技术布道师， SIOS 技术创新