Wzmocnienie łańcucha dostępności | ITProPortal

Opublikowany: 2022-01-10

W co początkowo wierzysz, gdy zastanawiasz się nad zapewnieniem najwyższej dostępności (HA) swoich najważniejszych aplikacji i szczegółów? Jeśli Ty lub Twoi konsumenci musicie mieć dostęp do tych aplikacji w 99,99 procentach czasu, całkiem naturalne jest założenie najpierw o zagwarantowaniu dostępu do źródeł obliczeniowych i pamięciowych. Jeśli pracujesz z programem SQL Server w chmurze, na przykład możesz skonfigurować instancję awaryjnego klastra systemu Windows (FCI), aby reagowała na awarię źródeł obliczeniowych lub magazynowych, natychmiast przenosząc obciążenia obliczeniowe i magazynowe do węzła alternatywnego klastra pracy awaryjnej. HA problem rozwiązany!

Ale co, jeśli nie chodzi o obliczenia lub pamięć masową? Istnieje wiele linków zwrotnych w łańcuchu dostępności łączących Ciebie i Twoich kupujących z indywidualnymi zasobami obliczeniowymi i magazynowymi. Musisz pomyśleć o wszystkich tych linkach, aby zapewnić doświadczenie w pracy z HA, które starasz się osiągnąć.

Dostępność sieci

Jeśli Twoje ważne aplikacje działają w chmurze, Twoja firma wspierająca chmurę będzie mieć pewność, że masz dostęp do intranetu łączącego czynniki Twojej infrastruktury chmurowej. AWS, Azure i Google Cloud System zapewniają doskonałą prędkość, solidne sieci wewnętrzne z wieloma ścieżkami, więc podstawowe sieci w chmurze są absolutnie w stanie obsłużyć docelowy poziom HA na poziomie 99,99 komputerów.

Po prostu nie możesz zarządzać sposobem, w jaki Twoi kupujący łączą się z Twoimi programami opartymi głównie na chmurze, ale możesz sterować sposobem dołączania do nich. Być może korzystasz z VPN Gateway lub dedykowanych usług łączności, takich jak Azure ExpressRoute, AWS Direct Connect lub Google Direct Interconnect. Wszystkie te rozwiązania mogą zapewnić połączenie z chmurą o dużej szybkości i bardzo małych opóźnieniach, ale wszystkie zapewniają różne umowy SLA — a wiele z nich ujawnia słabe łącza zwrotne w łańcuchu dostępności. Standardowa konfiguracja usługi Azure ExpressRoute zapewnia dostępność tylko na poziomie 99,95 komputera, dzięki czemu podstawowa konfiguracja funkcji dołączania natychmiastowego AWS jest jeszcze niższa — tylko 99,9 komputera. Prawdę mówiąc, maszyny wirtualne skonfigurowane do obsługi wysokiej dostępności w chmurach Azure lub AWS mogą nadal działać bez przerw — ale jest to bardzo łatwe i wygodne, jeśli nie możesz uzyskać do nich dostępu z powodu niedostępności usługi ExpressRoute lub natychmiastowego dołączania.

Możesz skonfigurować Azure ExpressRoute lub AWS Immediate Connect dla wysokiej dostępności, które po prostu zajmuje organizowanie. Aby uzyskać umowę SLA w wysokości 99,99%, należy skonfigurować co najmniej dwa obwody usługi ExpressRoute i 4 obwody łączenia natychmiastowego. Jeśli korzystasz z usług analogicznych dostawców w GCP, w celu uzyskania umowy SLA na 99,99 komputerów lepiej użyć usługi Google Immediate Interconnect Assistance dla aplikacji na etapie tworzenia, a nie usług Google Immediate Interconnect Services dla aplikacji niemających krytycznego znaczenia.

Dostępność infrastruktury

Nawet jeśli wzmocnisz słabe jednokierunkowe łącza w sieci, nadal istnieją potencjalne słabe tylne łącza w samej infrastrukturze chmury — wśród systemów równoważenia obciążenia, serwerów DNS, serwerów tożsamości i uwierzytelniania, farm serwerów witryn internetowych i tym podobnych. Nie zapomnij o naprawdę publicznej przerwie w działaniu Facebooka w październiku 2021 r.? Awarie wpływające na dostęp do wewnętrznych serwerów DNS Facebooka — a nie metody produkcyjne obsługujące kluczowe gałęzie działalności Facebooka — były niezawodne, jeśli chodzi o upadek całego biznesu na wiele godzin. Musisz przyjrzeć się tym komponentom twojej ogólnej infrastruktury równie skutecznie, aby upewnić się, że jesteś całkowicie skonfigurowany do HA.

SLA Google dla rozwiązań serwerów DNS wynosi 100 pc, co jest zachęcające, ale SLA dla firm Cloud Id wynosi tylko 99,9 procent. Podobnie, niepubliczna obsługa DNS Route 53 AWS stara się zapewnić 100-procentową umowę SLA, ale jej oferta Directory Solutions osiąga najwyższy poziom 99,9 procent. Podstawowe i wysokiej jakości produkty i usługi Azure Energetic Directory zapewniają SLA na 100 komputerów, ale SLA dla usług Azure Active Listing Domain Expert wynosi 99,9%.

Podobnie jak w przypadku łączności społecznościowej, istnieją problemy, które można zrobić, aby zwiększyć wiarygodność wewnętrznej infrastruktury obsługującej ważne aplikacje oparte na chmurze. Na przykład, możesz skonfigurować swoje środowisko naturalne AWS z wieloma kontrolerami obszaru, co może wzmocnić niezawodność produktów i usług AWS Listing, które są bliższe 99,99% stopni dostępności, których szukasz.

Alternatywa dla wielu chmur

Zdarzają się jednak okresy, jak w przypadku 7-godzinnej awarii AWS z 7 grudnia 2021 r., w której nawet najlepiej przygotowane korporacje mogą natrafić na nieprzewidziane przestoje. W związku z awarią AWS problemy nie wynikały z urządzeń, z których korzystali potencjalni klienci, ale, jak zauważa AWS, z problemów występujących w społeczności wewnętrznej „w celu hostowania podstawowych usług, takich jak monitorowanie, wewnętrzny DNS, produkty i usługi autoryzacyjne, i elementy płaszczyzny poleceń EC2”.* W rzeczywistości w kilku warunkach maszyny wirtualne, na których zarządzały aplikacje klientów, pozostały sprawne i całkowicie zgodne z umowami HA SLA — jednak klienci nie mogli uzyskać dostępu do swoich aplikacji z powodu problemów z bramami, wewnętrznymi produktami DNS oraz usługi, systemy równoważenia obciążenia i inne części, których zdolność do prawidłowego działania została zagrożona przez kaskadowe konsekwencje błędów popełnianych przez wewnętrzną społeczność.

W jaki sposób Twoje aplikacje mogą nadal działać i być dostępne, gdy słabym ogniwem wstecznym w łańcuchu dostępności okazuje się sama chmura? Twoją największą możliwością w tym artykule jest poleganie na odpowiedzi na wielochmurowe odzyskiwanie po katastrofach (DR). Zasadniczo stworzyłbyś infrastrukturę lustrzaną do obsługi najważniejszych programów w całkowicie indywidualnej chmurze. Jeśli twoja kluczowa infrastruktura SQL Server działa na AWS, na przykład, stworzyłbyś podobny przypadek SQL Server na Azure lub GCP, okazję, którą mógłbyś uruchomić ręcznie, gdyby chmura AWS przeszła w tryb offline. Będziesz chciał wybrać odpowiedź administracyjną DR, która działa zarówno w środowiskach AWS, jak i Azure/GCP, i która może szybko zorganizować replikację informacji z instancji SQL Server w AWS do pamięci masowej połączonej z infrastrukturą w Twoim otoczeniu chmury Azure/GCP. Jeśli naprawdę nie wdrożysz podobnej opcji administracji DR w tych dwóch środowiskach, prawdopodobnie nie będziesz mógł odpowiednio replikować swojej wiedzy dotyczącej chmur.

Będziesz także chciał skonfigurować relację prywatnej społeczności cyfrowej o znacznej prędkości (VPN) między infrastrukturą główną i DR. Wszystkie AWS, Azure i GCP oferują produkty i usługi VPN, które umożliwiają bezpieczne łącze chmura-chmura (i istnieją również alternatywy trzeciego zestawu), a to stanie się kanałem, za pomocą którego odpowiedź zarządzania DR będzie replikować Twoje istotne informacje między infrastrukturami chmury. Oczywiście, jeśli korzystałeś z programu AWS VPN Remedy w grudniu, mógł on już dawno przejść do trybu offline w trakcie awarii – ale w tym scenariuszu jest w porządku. Rozdzielczość administracyjna DR zarządzająca w AWS replikuje wszystkie sąsiednie operacje zapisu do swojego odpowiednika pamięci w infrastrukturze DR tak szybko, jak umożliwi to społeczność, więc zanim dostawcy AWS przejdą w tryb offline, oprogramowanie DR zreplikuje wszystko (lub prawie wszystkie) z najważniejszych danych AWS do infrastruktury DR. Gdy tylko stało się oczywiste, że kluczowa chmura nie działała w trybie offline, można by rozkręcić infrastrukturę w chmurze DR i zacząć dostarczać klientom dostęp do podstawowych celów przy znikomych zakłóceniach. Możesz nie być gotowy i zarządzać w czasie krótszym niż 5 minut, na który liczysz na środek zaradczy HA, ale działałbyś znacznie szybciej, niż gdybyś doświadczył wytrwania przez 7 kilka godzin, aby AWS mógł je uzyskać jego operacje z powrotem on-line.

Dostępność oprogramowania

Na dłuższą metę konfiguracja HA polega na skonfigurowaniu, aby mieć pewność, że Twoja aplikacja jest dostępna. Możesz generować FCI, które zagwarantują wysoką dostępność Twoich maszyn wirtualnych i pamięci masowej bez problemów. Wszyscy dostawcy pomocy w chmurze są przyzwyczajeni do dostosowania się do tego poziomu. Jednak w celu poprawnego podsumowania-zakończenia HA należy zwrócić uwagę na wszystkie pozostałe linki wsteczne w łańcuchu dostępności. Niektórzy będą słabsi, niż sądzisz, z wyjątkiem tego, że będziesz podejmować nadmierne sposoby, aby ich wzmocnić.

Dave Bermingham, starszy ewangelista techniczny, SIOS Innowacje technologiczne