Fortalecimiento de la cadena de disponibilidad | ITProPortal

Publicado: 2022-01-10

¿Qué piensa inicialmente cuando contempla garantizar la disponibilidad superior (HA) de sus aplicaciones y detalles más importantes? Si usted o sus consumidores necesitan poder acceder a estas aplicaciones el 99,99 por ciento del tiempo, es natural pensar primero en garantizar el acceso a las fuentes de computación y almacenamiento. Si está trabajando con SQL Server en la nube, por ejemplo, puede configurar una Instancia de clúster de conmutación por error (FCI) de Windows para responder a la falla de las fuentes de cómputo o almacenamiento al enviar instantáneamente las cargas de cómputo y almacenamiento a un nodo alternativo. del clúster de conmutación por error. HA problema resuelto!

Pero, ¿y si no son los medios informáticos o de almacenamiento los que fallan? Hay muchos backlinks en la cadena de disponibilidad que lo conectan a usted y a sus compradores con recursos informáticos y de almacenamiento individuales. Debe pensar en todos esos enlaces para garantizar la experiencia laboral de HA que se esfuerza por lograr.

Disponibilidad de red

Si está ejecutando sus aplicaciones importantes en la nube, su compañía de soporte en la nube se asegurará de la disponibilidad de la intranet que conecta los factores de su infraestructura en la nube. AWS, Azure y Google Cloud System ofrecen velocidades superiores, redes internas sólidas con varias rutas, por lo que las redes centrales en la nube son absolutamente capaces de admitir su objetivo HA de 99,99 PC.

Simplemente no puede administrar cómo sus clientes se vinculan a sus programas en su mayoría basados en la nube, pero puede controlar cómo se une a ellos. Es posible que esté empleando una puerta de enlace VPN o servicios de conectividad dedicados, como Azure ExpressRoute, AWS Direct Connect o Google Direct Interconnect. Todas estas soluciones pueden brindarle una conexión a la nube de muy baja latencia y velocidad significativa, pero todas brindan diferentes SLA, y muchas de ellas exponen backlinks débiles en la cadena de disponibilidad. La configuración estándar de Azure ExpressRoute brinda solo una disponibilidad de 99.95 PC, lo que garantiza que la configuración básica de AWS Immediate Join sea aún más baja: solo 99.9 PC. De hecho, las máquinas virtuales configuradas para HA en las nubes de Azure o AWS pueden seguir funcionando sin interrupción, pero eso es muy fácil y cómodo si no puede acceder a ellas porque ExpressRoute o Immediate Join no funcionan.

Puede configurar Azure ExpressRoute o AWS Immediate Connect para HA, solo puede organizarlo. Deberá configurar al menos dos circuitos ExpressRoute y 4 circuitos de unión inmediata para adquirir un SLA del 99,99 %. Si está utilizando los servicios similares en GCP, querrá usar la Asistencia de interconexión inmediata de Google para aplicaciones en etapa de creación en lugar de los Servicios de interconexión inmediata de Google para aplicaciones no críticas para obtener el SLA de 99.99 PC.

Disponibilidad de infraestructura

Sin embargo, incluso si refuerza los enlaces unidireccionales débiles en la red, sigue habiendo posibles enlaces débiles dentro de la infraestructura de la nube, entre balanceadores de carga, servidores DNS, servidores de identidad y autenticación, granjas de servidores de sitios web y similares. ¿No olvides la interrupción realmente pública en Facebook en octubre de 2021? Las interrupciones que afectaron el acceso a los servidores DNS internos de Facebook, no los métodos de producción que respaldan las líneas comerciales clave de Facebook, fueron confiables para detener el negocio completo durante horas. También debe mirar estos componentes de su infraestructura general para asegurarse de que está absolutamente configurado para HA.

El SLA de Google para las soluciones de servidores DNS es del 100 %, lo que es alentador, pero su SLA para las empresas de Cloud Id es solo del 99,9 %. Del mismo modo, el soporte de DNS no público de Route 53 de AWS se esfuerza por proporcionar un SLA del 100 %, pero su oferta de soluciones de directorio supera el 99,9 %. Los productos y servicios fundamentales y de calidad de Azure Energy Directory ofrecen un SLA del 100%, pero el SLA para los servicios de Azure Active Listing Domain Expert alcanza el 99,9 %.

Al igual que con la conectividad de la comunidad, hay cosas que se pueden hacer para aumentar la confiabilidad de la infraestructura interna que respalda sus aplicaciones vitales basadas en la nube. Por ejemplo, puede configurar su entorno natural de AWS con muchos controladores de área, lo que puede mejorar la confiabilidad de los productos y servicios de la lista de AWS que se acercan al 99,99 por ciento de los grados de accesibilidad que busca.

La alternativa multinube

Sin embargo, hay períodos, como en la interrupción de AWS de 7 horas del 7 de diciembre de 2021, en los que incluso las empresas mejor preparadas pueden sufrir un tiempo de inactividad imprevisto. En el caso de la interrupción de AWS, los problemas se derivaron no de los dispositivos que estaban usando los clientes potenciales sino, como señala AWS, de los problemas que ocurrieron en una comunidad interna creada “para alojar servicios básicos, como monitoreo, DNS interno, productos y servicios de autorización, y elementos del plano de comando de EC2”.* De hecho, en varias condiciones, las máquinas virtuales en las que se administraban las aplicaciones de los clientes permanecieron operativas y completamente compatibles con los SLA de alta disponibilidad; sin embargo, los clientes no pudieron acceder a sus aplicaciones debido a problemas con las puertas de enlace, los productos DNS internos y servicios, balanceadores de carga y otras partes cuya capacidad para operar correctamente se vio comprometida por las consecuencias en cascada de los errores que ocurrieron en la comunidad interior.

¿Cómo pueden sus aplicaciones seguir operativas y accesibles cuando el backlink débil en la cadena de disponibilidad resulta ser la propia nube? Su mayor posibilidad en este artículo es depender de una respuesta de recuperación ante catástrofes (DR) de múltiples nubes. Básicamente, desarrollaría una infraestructura espejo para respaldar sus programas más vitales en una nube completamente individual. Si su infraestructura crítica de SQL Server opera en AWS, por ejemplo, crearía un evento similar de SQL Server en Azure o GCP, un evento que podría iniciarse manualmente si la nube de AWS se desconectara. Querrá elegir una solución de administración de recuperación ante desastres que se ejecute en entornos de AWS y Azure/GCP y que pueda orquestar rápidamente la replicación de información desde la instancia de SQL Server en AWS al almacenamiento conectado a la infraestructura en su entorno de nube de Azure/GCP. Si realmente no implementa la misma opción de administración de DR en los dos entornos, es posible que no replique correctamente sus conocimientos en las nubes.

También querrá configurar una relación de comunidad privada digital (VPN) de alta velocidad entre su infraestructura principal y DR. AWS, Azure y GCP presentan productos y servicios de VPN que pueden permitir un enlace seguro de nube a nube (y también existen alternativas de terceros), y esto se convertirá en el conducto por el cual su respuesta de administración de DR replica su información significativa entre las infraestructuras de la nube. Por supuesto, si ha estado utilizando un recurso VPN de AWS en diciembre, es posible que se haya desconectado durante mucho tiempo en el transcurso de la interrupción, pero en este escenario está bien. La gestión de resolución de administración de DR en AWS replica todas las operaciones de escritura locales a su contraparte de almacenamiento en la infraestructura de DR tan pronto como la comunidad lo permita, por lo que para cuando los proveedores de AWS se desconecten, el software de DR habrá replicado todo (o casi todos) de los datos vitales de AWS para la infraestructura DR. Tan pronto como era evidente que la nube clave no estaba fuera de línea, activaba la infraestructura en la nube de recuperación ante desastres y podía comenzar a brindar acceso al consumidor a sus propósitos esenciales con una interrupción insignificante. Es posible que no esté listo y funcionando en el período de tiempo de menos de 5 minutos que espera de una solución de alta disponibilidad, pero estaría operativo mucho más rápido de lo que sería si hubiera tenido que esperar durante 7 horas para que AWS obtenga sus operaciones de nuevo en línea.

Disponibilidad de software

A la larga, la configuración para HA se trata de configurar para estar seguro de la disponibilidad sustancial de su aplicación. Puedes generar FCIs que garantizarán la HA de tus VMs y almacenamiento sin tener problema. Todos los proveedores de asistencia en la nube están acostumbrados a acomodarlo a ese nivel. Sin embargo, para una HA correcta de conclusión a conclusión, debe prestar atención adicional a todos los demás vínculos de retroceso en la cadena de disponibilidad. Algunos serán más débiles de lo que reconoces, excepto que tomes formas excesivas de fortalecerlos.

Dave Bermingham, evangelista técnico sénior, SIOS Innovación tecnológica