Renforcement de la chaîne de disponibilité | ITProPortail

Publié: 2022-01-10

À quoi pensez-vous initialement lorsque vous envisagez de vous assurer de la disponibilité supérieure (HA) de vos applications et détails les plus importants ? Si vous ou vos utilisateurs souhaitez pouvoir accéder à ces applications 99,99 % du temps, il est tout à fait naturel de penser d'abord à garantir l'accessibilité aux sources de calcul et de stockage. Si vous travaillez avec SQL Server dans le cloud, par exemple, vous pouvez configurer une instance de cluster de basculement Windows Home (FCI) pour répondre à la défaillance des sources de calcul ou de stockage en déplaçant instantanément les charges de calcul et de stockage vers un autre nœud. du cluster de basculement. Problème HA résolu !

Mais que se passe-t-il si ce ne sont pas les moyens de calcul ou de stockage qui échouent ? Il existe de nombreux backlinks dans la chaîne de disponibilité vous connectant, vous et vos acheteurs, à des ressources de calcul et de stockage individuelles. Vous devez penser à tous ces liens pour garantir l'expérience de travail HA que vous vous efforcez d'atteindre.

Disponibilité du réseau

Si vous exploitez vos principales applications dans le cloud, votre société de support cloud s'assurera de la disponibilité de l'intranet reliant les éléments de votre infrastructure cloud. AWS, Azure et Google Cloud System fournissent tous des réseaux intérieurs robustes et à vitesse supérieure avec un certain nombre de chemins, de sorte que les réseaux cloud centraux sont tout à fait capables de prendre en charge votre cible HA de 99,99 pc.

Vous ne pouvez tout simplement pas gérer la manière dont vos clients se connectent à vos programmes principalement basés sur le cloud, mais vous pouvez contrôler la manière dont vous vous y connectez. Vous utilisez peut-être une passerelle VPN ou des services de connectivité dédiés comme Azure ExpressRoute, AWS Direct Connect ou Google Direct Interconnect. Toutes ces solutions peuvent vous fournir une connexion au cloud à vitesse élevée et à très faible latence, mais elles fournissent toutes des SLA différents, et nombre d'entre elles exposent des backlinks faibles dans la chaîne de disponibilité. La configuration standard d'Azure ExpressRoute ne donne qu'une disponibilité de 99,95 pc, ce qui garantit que la configuration essentielle d'AWS Immediate Join est encore plus faible - seulement 99,9 pc Si le fournisseur échoue de manière inattendue, l'accessibilité à vos applications essentielles pourrait être limitée pendant beaucoup plus de temps que prévu. En fait, les machines virtuelles configurées pour HA dans les clouds Azure ou AWS peuvent continuer à fonctionner sans interruption, mais c'est un peu plus facile et confortable si vous ne pouvez pas y accéder parce qu'ExpressRoute ou Immediate Join est en panne.

Vous pouvez configurer Azure ExpressRoute ou AWS Immediate Connect pour HA, cela peut simplement nécessiter une organisation. Vous devrez configurer au moins deux circuits ExpressRoute et 4 circuits Immediate Join pour acquérir un SLA de 99,99 %. Si vous utilisez des fournisseurs analogues sur GCP, vous souhaiterez utiliser l'assistance d'interconnexion immédiate de Google pour les applications en phase de création plutôt que les services d'interconnexion immédiate de Google pour les applications non critiques pour obtenir le SLA de 99,99 pc.

Disponibilité des infrastructures

Même si vous renforcez les liens unidirectionnels faibles du réseau, il continue d'y avoir des liens de retour potentiels faibles à l'intérieur de l'infrastructure cloud elle-même, parmi les équilibreurs de charge, les serveurs DNS, les serveurs d'identité et d'authentification, les fermes de serveurs de sites Web, etc. N'oubliez pas la panne vraiment publique de Facebook en octobre 2021 ? Les pannes influençant l'accès aux serveurs DNS internes de Facebook - et non les méthodes de production prenant en charge les principaux secteurs d'activité de Facebook - étaient fiables pour faire tomber l'ensemble de l'activité pendant des heures. Vous devez également examiner ces composants de votre infrastructure générale pour vous assurer que vous êtes parfaitement configuré pour HA.

Le SLA de Google pour les solutions de serveur DNS est de 100 %, ce qui est encourageant, mais son SLA pour les sociétés Cloud Id n'est que de 99,9 %. De même, le support DNS non public Route 53 d'AWS s'efforce de fournir un SLA de 100 %, mais son offre de solutions d'annuaire atteint 99,9 %. Les produits et services Azure Energetic Directory Fundamental and Quality offrent un SLA de 100 pc, mais le SLA pour les services Azure Active Listing Domain Expert plafonne à 99,9 %.

Comme pour la connectivité communautaire, il existe des problèmes que l'on peut résoudre pour accroître la fiabilité de l'infrastructure interne prenant en charge vos applications vitales basées sur le cloud. Par exemple, vous pouvez configurer votre environnement naturel AWS avec de nombreux contrôleurs de zone, ce qui peut renforcer la fiabilité des produits et services de référencement AWS se rapprochant des degrés d'accessibilité de 99,99 % que vous recherchez.

L'alternative multicloud

Il y a cependant des périodes, comme lors de la panne AWS de 7 heures du 7 décembre 2021, où même les entreprises les mieux préparées pourraient subir des temps d'arrêt imprévus. Dans les circonstances de la panne d'AWS, les problèmes ne provenaient pas d'appareils que les prospects utilisaient mais, comme le note AWS, de problèmes survenus dans une communauté interne conçue pour "héberger des services fondamentaux, tels que la surveillance, le DNS interne, les produits et services d'autorisation, et des éléments du plan de commande EC2. »* En fait, dans plusieurs conditions, les machines virtuelles sur lesquelles les applications des clients étaient gérées sont restées opérationnelles et entièrement conformes aux SLA HA, mais les clients ne pouvaient pas accéder à leurs applications en raison de problèmes avec les passerelles, les produits DNS internes. et services, équilibreurs de charge et autres parties dont la capacité à fonctionner correctement a été compromise par les conséquences en cascade des erreurs qui se sont produites sur la communauté intérieure.

Comment vos applications peuvent-elles rester opérationnelles et accessibles lorsque le backlink faible de la chaîne de disponibilité s'avère être le cloud lui-même ? Votre plus grande possibilité dans cet article est de dépendre d'une réponse de reprise après sinistre (DR) multi-cloud. Fondamentalement, vous développeriez une infrastructure miroir pour prendre en charge vos programmes les plus vitaux dans un cloud complètement individuel. Si votre infrastructure SQL Server essentielle fonctionne sur AWS, par exemple, vous créeriez un cas similaire de SQL Server sur Azure ou GCP, un cas que vous pourriez démarrer manuellement si le cloud AWS était hors ligne. Vous voudrez choisir une réponse d'administration DR qui s'exécute à la fois dans les environnements AWS et Azure/GCP et qui peut orchestrer rapidement la réplication des informations de l'instance SQL Server dans AWS vers le stockage connecté à l'infrastructure dans votre environnement cloud Azure/GCP. Si vous ne déployez pas la même option d'administration DR dans les deux environnements, vous risquez de ne pas reproduire correctement vos connaissances sur les nuages.

Vous allez également vouloir configurer une relation de communauté privée numérique (VPN) à grande vitesse entre vos infrastructures principales et DR. AWS, Azure et GCP proposent tous des produits et services VPN qui peuvent permettre une liaison cloud à cloud sécurisée (et il existe également des alternatives de troisième réunion), et cela deviendra le canal par lequel votre réponse de gestion DR réplique votre informations importantes entre les infrastructures cloud. Bien sûr, si vous avez utilisé un AWS VPN Remedy en décembre, il est peut-être resté longtemps hors ligne au cours de la panne - mais dans ce scénario, tout va bien. La résolution d'administration DR gérée sur AWS réplique toutes les opérations d'écriture de voisinage sur son homologue de stockage dans l'infrastructure DR aussi rapidement que la communauté le permettra, de sorte qu'au moment où les fournisseurs AWS se sont déconnectés, le logiciel DR aurait tout répliqué (ou presque toutes) des données AWS vitales à l'infrastructure DR. Dès qu'il était évident que le cloud clé était absent hors ligne, vous feriez tourner l'infrastructure dans le cloud DR et cela pourrait commencer à fournir le service client à vos objectifs essentiels avec une perturbation négligeable. Vous ne serez peut-être pas opérationnel dans le délai inférieur à 5 minutes sur lequel vous comptez pour une solution HA, mais vous seriez opérationnel beaucoup plus rapidement que si vous aviez dû attendre 7 heures pour qu'AWS obtienne ses opérations de nouveau en ligne.

Disponibilité du logiciel

À long terme, la configuration pour la haute disponibilité consiste à configurer pour être certain de la disponibilité substantielle de votre application. Vous pouvez générer des FCI qui garantiront la haute disponibilité de vos VM et de votre stockage sans problème. Tous les fournisseurs d'assistance cloud sont habitués à vous accueillir à ce niveau. Cependant, pour une HA correcte de conclusion à conclusion, vous devez accorder une attention supplémentaire à tous les autres liens de retour dans la chaîne de disponibilité. Certains seront plus faibles que vous ne le reconnaissez, sauf que vous prenez des moyens excessifs pour les renforcer.

Dave Bermingham, évangéliste technique principal, SIOS Innovation technologique