加強可用性鏈| ITProPortal

已發表: 2022-01-10

在考慮確保最重要的應用程序和細節的卓越可用性 (HA) 時，您最初相信什麼？如果您或您的消費者需要能夠在 99.99 pc 的時間內訪問這些應用程序，那麼首先假設保證對計算和存儲源的可訪問性是很自然的。如果您在雲中使用 SQL Server，例如，您可以配置 Windows 故障轉移群集實例 (FCI)，以通過立即將計算和存儲負載轉移到備用節點來響應計算或存儲源的故障故障轉移群集。哈麻煩解決了！

但是，如果不是計算或存儲方式不成功怎麼辦？可用性鏈中有許多反向鏈接將您和您的買家連接到個人計算和存儲資源。您需要考慮所有這些鏈接，以確保您努力獲得 HA 工作經驗。

網絡可用性

如果您在雲中運行您的重要應用程序，您的雲支持公司將確定連接您的雲基礎設施因素的內部網的可用性。 AWS、Azure 和 Google Cloud System 都提供卓越的速度、堅固的內部網絡和多條路徑，因此核心云網絡絕對有能力支持您的 99.99 pc HA 目標。

您只是無法管理購物者如何鏈接到基於雲的主要程序，但您可以控制如何加入它們。您可能正在使用 VPN 網關或專用連接服務，例如 Azure ExpressRoute、AWS Direct Connect 或 Google Direct Interconnect。所有這些解決方案都可以為您提供與雲的高速、極低延遲的連接，但它們都提供不同的 SLA——其中許多都暴露了可用性鏈中的弱反向鏈接。 Azure ExpressRoute 的標準配置僅提供 99.95 pc 的可用性，確保 AWS Immediate Join 的基本配置甚至更低——僅 99.9 pc 如果提供商可能意外失敗，對關鍵應用程序的可訪問性可能會受到比預期更長的時間限制。事實上，在 Azure 或 AWS 雲中為 HA 配置的 VM 可能會繼續運行而不會中斷 - 但如果由於 ExpressRoute 或立即加入已關閉而無法訪問它們，那將是冷酷的輕鬆和舒適。

您可以為 HA 配置 Azure ExpressRoute 或 AWS Immediate Connect，它只是可以進行組織。您將需要配置至少兩條 ExpressRoute 線路和 4 條立即加入線路才能獲得 99.99% 的 SLA。如果您在 GCP 上使用類似的提供程序，您將希望使用 Google Immediate Interconnect Assistance for Creation-Stage Applications 而非 Google Immediate Interconnect Services for non-critical Applications 以獲得 99.99 pc SLA。

基礎設施可用性

但是，即使您支持網絡中的單向弱鏈接，雲基礎設施本身內部也會繼續存在潛在的弱反向鏈接——在負載平衡器、DNS 服務器、身份和身份驗證服務器、網站服務器群等之間。不要忘記 2021 年 10 月 Facebook 的真正公開中斷？影響進入 Facebook 內部 DNS 服務器的中斷（而不是支持 Facebook 關鍵業務的生產方法）是導致整個業務癱瘓數小時的可靠因素。您需要有效地查看通用基礎架構的這些組件，以確保您已完全配置為 HA。

Google 針對 DNS 服務器解決方案的 SLA 是 100 pc，這是令人鼓舞的，但其針對 Cloud Id 公司的 SLA 僅為 99.9%。同樣，AWS 的 Route 53 非公共 DNS 支持努力提供 100% 的 SLA，但其目錄解決方案提供的最高水平為 99.9%。 Azure Energetic Directory Fundamental and Quality Products and services 提供 100 pc 的 SLA，但 Azure Active Listing Domain Expert 服務的 SLA 最高為 99.9%。

與社區連接一樣，可以採取一些措施來提高支持您重要的基於雲的應用程序的內部基礎架構的可信度。例如，您可以使用許多區域控制器配置您的 AWS 自然環境，這可以增強 AWS 列表產品和服務的可靠性，接近您所尋找的 99.99% 的可訪問性程度。

多雲替代方案

然而，在 2021 年 12 月 7 日的 7 小時 AWS 中斷中，即使是準備最充分的公司也可能會遇到無法預料的停機時間。在 AWS 中斷的情況下，問題不是來自潛在客戶正在使用的設備，而是正如 AWS 指出的那樣，來自內部社區發生的問題，這些問題“用於託管基礎服務，如監控、內部 DNS、授權產品和服務，和 EC2 命令平面的元素。”* 事實上，在某些情況下，客戶應用程序一直在其上管理的虛擬機仍然可以運行並完全符合 HA SLA——但由於網關、內部 DNS 產品的問題，客戶無法訪問他們的應用程序以及服務、負載平衡器和其他部分，其正常運行的能力因內部社區發生的錯誤的級聯後果而受到損害。

當可用性鏈中的弱反向鏈接被證明是雲本身時，您的應用程序如何繼續運行和訪問？您在本文中的最大可能性是依賴多雲災難恢復 (DR) 答案。基本上，您將開發一個鏡像基礎架構來支持您在完全獨立的雲中最重要的程序。如果您的關鍵 SQL Server 基礎設施在 AWS 上運行，例如，您將在 Azure 或 GCP 上產生類似的 SQL Server 場景，如果 AWS 雲離線，您可以手動啟動該場景。您將需要選擇在 AWS 和 Azure/GCP 環境中運行的 DR 管理解決方案，並且可以快速協調從 AWS 中的 SQL Server 實例到連接到 Azure/GCP 雲環境中基礎設施的存儲的信息複製。如果您確實沒有在這兩個環境中部署類似的 DR 管理選項，您可能無法在涉及雲的情況下適當地複制您的知識。

您還需要在主體和 DR 基礎設施之間配置高速數字私有社區 (VPN) 關係。 AWS、Azure 和 GCP 都提供允許安全的雲到雲鏈接的 VPN 產品和服務（也有 3rd-get together 替代方案），這將成為您的 DR 管理答案複製您的渠道雲基礎設施之間的重要信息。當然，如果您在 12 月一直在使用 AWS VPN Remedy，它可能在中斷過程中早已離線——但在這種情況下，這沒關係。在 AWS 上管理的 DR 管理解決方案會盡快將所有鄰域寫入操作複製到 DR 基礎設施中的存儲對應方，因此當 AWS 提供商下線時，DR 軟件將復制所有（或幾乎所有）重要的 AWS 數據到 DR 基礎設施。一旦關鍵雲明顯不在離線狀態，您將啟動 DR 雲中的基礎架構，它可以開始將消費者獲取交付到您的基本目的，而中斷可以忽略不計。您可能無法在您所指望的 HA 補救措施不到 5 分鐘的時間內啟動和管理，但與您經歷 7 小時等待 AWS 獲得的體驗相比，您的操作速度會明顯加快其運營重新上線。

軟件可用性

從長遠來看，配置 HA 就是為了確保應用程序的實質可用性。您可以生成 FCI，以確保您的 VM 和存儲的 HA 沒有問題。所有云協助供應商都習慣於在該級別上為您提供服務。但是，對於正確的從結論到結論的 HA，您需要提高對可用性鏈中所有其他反向鏈接的認識。有些人會比你意識到的更弱，除非你採取過度的方式來加強它們。

Dave Bermingham，高級技術佈道師， SIOS 技術創新