Stärkung der Verfügbarkeitskette | ITProPortal
Veröffentlicht: 2022-01-10Woran denken Sie zunächst, wenn Sie darüber nachdenken, die höchste Verfügbarkeit (HA) Ihrer wichtigsten Apps und Daten sicherzustellen? Wenn Sie oder Ihre Kunden 99,99 Prozent der Zeit auf diese Anwendungen zugreifen müssen, ist es selbstverständlich, sich zunächst darum zu kümmern, den Zugriff auf die Rechen- und Speicherquellen zu gewährleisten. Wenn Sie beispielsweise mit SQL Server in der Cloud arbeiten, können Sie eine Home Windows Failover Cluster Instance (FCI) konfigurieren, um auf den Ausfall von Rechen- oder Speicherquellen zu reagieren, indem die Rechen- und Speicherlasten sofort an einen alternativen Knoten weitergeleitet werden des Failoverclusters. HA-Problem gelöst!
Aber was, wenn es nicht die Rechen- oder Speichermittel sind, die nicht erfolgreich sind? Es gibt viele Backlinks in der Verfügbarkeitskette, die Sie und Ihre Käufer mit einzelnen Rechen- und Speicherressourcen verbinden. Sie müssen über all diese Verbindungen nachdenken, um die HA-Arbeitserfahrung sicherzustellen, die Sie anstreben.
Netzwerkverfügbarkeit
Wenn Sie Ihre wichtigsten Anwendungen in der Cloud betreiben, stellt Ihr Cloud-Support-Unternehmen sicher, dass das Intranet verfügbar ist, das die Faktoren Ihrer Cloud-Infrastruktur verbindet. AWS, Azure und Google Cloud System bieten alle überlegene Geschwindigkeit, robuste interne Netzwerke mit einer Reihe von Pfaden, sodass die Core-Cloud-Netzwerke absolut in der Lage sind, Ihr 99,99-PC-HA-Ziel zu unterstützen.
Sie können einfach nicht steuern, wie sich Ihre Käufer mit Ihren Cloud-basierten Programmen verbinden, aber Sie können bestimmen, wie Sie ihnen beitreten. Möglicherweise verwenden Sie ein VPN-Gateway oder dedizierte Konnektivitätsdienste wie Azure ExpressRoute, AWS Direct Connect oder Google Direct Interconnect. Alle diese Lösungen können Ihnen eine Verbindung zur Cloud mit erheblicher Geschwindigkeit und sehr geringer Latenz bieten, aber sie alle bieten unterschiedliche SLAs – und viele von ihnen legen schwache Backlinks in der Verfügbarkeitskette offen. Die Standardkonfiguration von Azure ExpressRoute bietet nur eine Verfügbarkeit von 99,95 Prozent. Stellen Sie sicher, dass die grundlegende Konfiguration von AWS Immediate Join sogar noch niedriger ist – nur 99,9 Prozent. In der Tat können die für HA konfigurierten VMs in den Azure- oder AWS-Clouds möglicherweise ohne Unterbrechung weiterarbeiten – aber das ist sehr angenehm, wenn Sie nicht darauf zugreifen können, weil ExpressRoute oder Immediate Join ausgefallen sind.
Sie können Azure ExpressRoute oder AWS Immediate Connect für HA konfigurieren, es ist einfach zu organisieren. Sie müssen mindestens zwei ExpressRoute-Verbindungen und 4 Immediate Join-Verbindungen konfigurieren, um eine SLA von 99,99 % zu erhalten. Wenn Sie die analogen Anbieter auf der GCP verwenden, sollten Sie die Google Immediate Interconnect-Unterstützung für Anwendungen in der Erstellungsphase anstelle der Google Immediate Interconnect-Dienste für nicht kritische Anwendungen verwenden, um die 99,99-PC-SLA zu erhalten.
Verfügbarkeit der Infrastruktur
Selbst wenn Sie die schwachen Einwegverbindungen im Netzwerk stärken, gibt es weiterhin potenzielle schwache Rückverbindungen innerhalb der Cloud-Infrastruktur selbst – zwischen Load Balancern, DNS-Servern, Identitäts- und Authentifizierungsservern, Website-Serverfarmen und dergleichen. Vergessen Sie nicht den wirklich öffentlichen Ausfall bei Facebook im Oktober 2021? Ausfälle, die den Zugang zu den internen DNS-Servern von Facebook beeinflussten – nicht die Produktionsverfahren, die die wichtigsten Geschäftszweige von Facebook unterstützten – waren dafür verantwortlich, das gesamte Geschäft stundenlang zum Erliegen zu bringen. Sie müssen sich diese Komponenten Ihrer allgemeinen Infrastruktur genau ansehen, um sicherzustellen, dass Sie absolut für HA konfiguriert sind.
Das SLA von Google für DNS-Serverlösungen beträgt 100 Prozent, was ermutigend ist, aber sein SLA für Cloud-ID-Unternehmen beträgt nur 99,9 Prozent. Ebenso strebt der nicht-öffentliche DNS-Support von AWS für Route 53 eine 100-prozentige SLA an, aber sein Angebot an Verzeichnislösungen liegt bei 99,9 Prozent. Die Grund- und Qualitätsprodukte und -dienste von Azure Energetic Directory bieten eine SLA von 100 Prozent, aber die SLA für Azure Active Listing Domain Expert-Dienste liegt bei 99,9 Prozent.
Wie bei der Community-Konnektivität gibt es Dinge, die man tun kann, um die Vertrauenswürdigkeit der internen Infrastruktur zu erhöhen, die Ihre wichtigen Cloud-basierten Apps unterstützt. Beispielsweise können Sie Ihre natürliche AWS-Umgebung mit vielen Bereichscontrollern konfigurieren, was die Zuverlässigkeit der AWS-Listing-Produkte und -Services stärken kann, die näher an den gewünschten Zugänglichkeitsgraden von 99,99 Prozent liegen.
Die Multi-Cloud-Alternative
Es gibt jedoch Zeiträume, wie beim 7-stündigen AWS-Ausfall vom 7. Dezember 2021, in denen selbst die am besten vorbereiteten Unternehmen auf unvorhergesehene Ausfallzeiten stoßen können. Unter den Umständen des AWS-Ausfalls stammten die Probleme nicht von Geräten, die Interessenten verwendeten, sondern, wie AWS anmerkt, von Problemen, die in einer internen Community auftraten, die „zum Hosten grundlegender Dienste wie Überwachung, internes DNS, Autorisierungsprodukte und -dienste, und Elemente der EC2-Befehlsebene.“* Tatsächlich blieben die VMs, auf denen Kunden-Apps verwaltet wurden, unter verschiedenen Bedingungen betriebsbereit und vollständig konform mit HA-SLAs – dennoch konnten Kunden aufgrund von Problemen mit Gateways und internen DNS-Produkten nicht auf ihre Apps zugreifen und Dienste, Load Balancer und andere Teile, deren Fähigkeit, ordnungsgemäß zu funktionieren, durch die kaskadierenden Folgen der Fehler, die sich in der internen Community ereigneten, beeinträchtigt wurde.
Wie können Ihre Anwendungen weiterhin betriebsbereit und zugänglich bleiben, wenn sich herausstellt, dass der schwache Backlink in der Verfügbarkeitskette die Cloud selbst ist? Ihre größte Chance in diesem Artikel besteht darin, sich auf eine Multi-Cloud-Katastrophenwiederherstellungs-Antwort (DR) zu verlassen. Grundsätzlich würden Sie eine Spiegelinfrastruktur entwickeln, um Ihre wichtigsten Programme in einer vollständig individuellen Cloud zu unterstützen. Wenn Ihre wichtige SQL Server-Infrastruktur beispielsweise auf AWS läuft, würden Sie eine ähnliche Gelegenheit für SQL Server auf Azure oder GCP erstellen, eine Gelegenheit, die Sie manuell starten könnten, wenn die AWS-Cloud offline ginge. Sie sollten eine Lösung für die DR-Verwaltung auswählen, die sowohl in der AWS- als auch in der Azure/GCP-Umgebung ausgeführt wird und schnell die Replikation von Informationen von der SQL Server-Instanz in AWS zum Speicher orchestrieren kann, der mit der Infrastruktur in Ihrer Azure/GCP-Cloud-Umgebung verbunden ist. Wenn Sie die gleiche DR-Verwaltungsoption wirklich nicht in den beiden Umgebungen einsetzen, können Sie Ihr Wissen möglicherweise nicht angemessen mit den Clouds replizieren.
Sie werden auch eine VPN-Beziehung (Digital Private Community) mit erheblicher Geschwindigkeit zwischen Ihrer Prinzipal- und DR-Infrastruktur konfigurieren wollen. AWS, Azure und GCP bieten alle VPN-Produkte und -Dienste an, die eine sichere Cloud-zu-Cloud-Verbindung ermöglichen können (und es gibt auch Drittanbieter-Alternativen), und dies wird zum Kanal, durch den Ihre DR-Management-Antwort Ihre repliziert wichtige Informationen zwischen den Cloud-Infrastrukturen. Wenn Sie im Dezember ein AWS VPN Remedy verwendet haben, kann es natürlich sein, dass es im Zuge des Ausfalls längst offline gegangen ist – aber in diesem Szenario ist das in Ordnung. Die auf AWS verwaltete DR-Verwaltungsauflösung repliziert alle Schreibvorgänge in der Nachbarschaft zu ihrem Speichergegenstück in der DR-Infrastruktur so schnell, wie es die Community möglich macht, sodass die DR-Software bis zu dem Zeitpunkt, an dem die AWS-Anbieter offline gingen, alle (bzw fast alle) der wichtigen AWS-Daten an die DR-Infrastruktur. Sobald klar war, dass die Schlüssel-Cloud nicht offline war, würden Sie die Infrastruktur in der DR-Cloud hochfahren und sie könnte mit der Bereitstellung von Verbraucherdaten für Ihre wesentlichen Zwecke mit vernachlässigbarer Unterbrechung beginnen. Sie sind möglicherweise nicht in dem Zeitrahmen von weniger als 5 Minuten einsatzbereit, auf den Sie sich bei einer HA-Lösung verlassen, aber Sie wären deutlich schneller betriebsbereit, als wenn Sie 7 Stunden gewartet hätten, bis AWS verfügbar wäre seinen Betrieb wieder online.
Softwareverfügbarkeit
Langfristig geht es bei der Konfiguration für HA darum, die wesentliche Verfügbarkeit Ihrer Anwendung sicherzustellen. Sie können FCIs generieren, die die Hochverfügbarkeit Ihrer VMs und Speicher ohne Probleme garantieren. Alle Anbieter von Cloud-Unterstützung sind daran gewöhnt, Sie auf diesem Niveau zu unterstützen. Für eine korrekte Abschluss-zu-Abschluss-HA müssen Sie jedoch allen anderen Backlinks in der Verfügbarkeitskette zusätzliche Aufmerksamkeit schenken. Einige werden schwächer sein, als Sie erkennen, es sei denn, Sie gehen übermäßige Wege, um sie zu stärken.
Dave Bermingham, Senior Technical Evangelist, SIOS Technologische Innovation