Укрепление цепочки доступности | ITProPortal

Опубликовано: 2022-01-10

На что вы изначально рассчитываете, когда думаете об обеспечении высокой доступности (HA) ваших самых важных приложений и данных? Если вы или ваши пользователи должны иметь доступ к этим приложениям 99,99% времени, вполне естественно сначала подумать о гарантированном доступе к вычислительным ресурсам и источникам хранения. Если вы работаете с SQL Server в облаке, например, вы можете настроить экземпляр отказоустойчивого кластера (FCI) Home Windows для реагирования на отказ источников вычислений или хранения, мгновенно перенаправляя нагрузки вычислений и хранения на альтернативный узел. отказоустойчивого кластера. Проблема ХА решена!

Но что, если дело не в вычислительных ресурсах или средствах хранения? В цепочке доступности существует множество обратных ссылок, соединяющих вас и ваших покупателей с отдельными вычислительными ресурсами и ресурсами хранения. Вам нужно подумать обо всех этих ссылках, чтобы обеспечить желаемый опыт работы с высокой доступностью.

Доступность сети

Если вы используете важные приложения в облаке, ваша служба поддержки облачных вычислений будет уверена в доступности внутренней сети, соединяющей элементы вашей облачной инфраструктуры. AWS, Azure и Google Cloud System обеспечивают превосходную скорость, надежные внутренние сети с несколькими путями, поэтому основные облачные сети абсолютно способны поддерживать вашу цель высокой доступности 99,99 ПК.

Вы просто не можете управлять тем, как ваши покупатели связываются с вашими облачными программами, но вы можете управлять тем, как вы к ним присоединяетесь. Возможно, вы используете VPN-шлюз или выделенные службы подключения, такие как Azure ExpressRoute, AWS Direct Connect или Google Direct Interconnect. Все эти решения могут предоставить вам высокоскоростное подключение к облаку с очень малой задержкой, но все они предоставляют разные SLA, и многие из них выявляют слабые обратные ссылки в цепочке доступности. Стандартная конфигурация Azure ExpressRoute обеспечивает доступность только 99,95 ПК, а базовая конфигурация AWS Immediate Join еще ниже — всего 99,9 ПК. По правде говоря, виртуальные машины, настроенные для высокой доступности в облаках Azure или AWS, могут продолжать работать без перерыва, но это не очень удобно, если вы не можете получить к ним доступ из-за того, что ExpressRoute или Immediate Join не работают.

Вы можете настроить Azure ExpressRoute или AWS Immediate Connect для обеспечения высокой доступности, это просто требует организации. Вам потребуется настроить как минимум два канала ExpressRoute и 4 канала Immediate Join, чтобы получить SLA на уровне 99,99 %. Если вы пользуетесь аналогичными поставщиками в GCP, вам следует использовать Google Immediate Interconnect Assistance для приложений на этапе создания, а не Google Immediate Interconnect Services для некритических приложений, чтобы получить SLA 99,99 ПК.

Доступность инфраструктуры

Однако, даже если вы укрепите слабые односторонние связи в сети, внутри самой облачной инфраструктуры останутся потенциальные слабые обратные связи — между балансировщиками нагрузки, DNS-серверами, серверами идентификации и аутентификации, фермами серверов веб-сайтов и т. д. Не забывайте о действительно публичном отключении Facebook в октябре 2021 года? Сбои, влияющие на доступ к внутренним DNS-серверам Facebook, а не на производственные методы, поддерживающие ключевые направления бизнеса Facebook, могли привести к полной остановке бизнеса на несколько часов. Вам необходимо также тщательно изучить эти компоненты общей инфраструктуры, чтобы убедиться, что вы полностью настроены для обеспечения высокой доступности.

SLA Google для решений DNS-серверов составляет 100%, что обнадеживает, но его SLA для компаний Cloud Id составляет всего 99,9%. Аналогичным образом, поддержка непубличных DNS AWS Route 53 стремится обеспечить 100-процентное соглашение об уровне обслуживания, но его предложение Directory Solutions достигает 99,9 %. Базовые и качественные продукты и услуги Azure Energetic Directory предоставляют SLA на 100 пк, но SLA для служб Azure Active Listing Domain Expert достигает 99,9 %.

Как и в случае с подключением к сообществу, существуют проблемы, которые можно решить, чтобы повысить надежность внутренней инфраструктуры, поддерживающей ваши жизненно важные облачные приложения. Например, вы можете настроить свою естественную среду AWS с несколькими локальными контроллерами, что может повысить надежность продуктов и сервисов AWS Listing, характеризующихся степенью доступности, близкой к 99,99 %, которую вы ищете.

Мультиоблачная альтернатива

Однако бывают периоды, например, 7-часовой сбой AWS 7 декабря 2021 года, когда даже самые хорошо подготовленные корпорации могут столкнуться с непредвиденными простоями. В случае сбоя AWS проблемы были связаны не с устройствами, которые использовали потенциальные клиенты, а, как отмечает AWS, с проблемами, возникающими во внутреннем сообществе, созданном «для размещения основных сервисов, таких как мониторинг, внутренний DNS, продукты и сервисы авторизации, и элементы командной плоскости EC2». На самом деле, в некоторых условиях виртуальные машины, которыми управляли клиентские приложения, оставались работоспособными и полностью соответствовали соглашениям об уровне обслуживания высокой доступности, но клиенты не могли получить доступ к своим приложениям из-за проблем со шлюзами, внутренними продуктами DNS. и службы, балансировщики нагрузки и другие части, способность которых работать должным образом была скомпрометирована каскадными последствиями ошибок, происходящих во внутреннем сообществе.

Как ваши приложения могут оставаться работоспособными и доступными, когда слабым обратным звеном в цепочке доступности оказывается само облако? Ваша самая большая возможность в этой статье — полагаться на ответ аварийного восстановления (DR) в нескольких облаках. По сути, вы разработаете зеркальную инфраструктуру для поддержки наиболее важных программ в полностью индивидуальном облаке. Например, если ваша важнейшая инфраструктура SQL Server работает на AWS, вы могли бы создать аналогичный случай SQL Server на Azure или GCP, случай, когда вы могли бы запуститься вручную, если облако AWS отключится. Вам нужно выбрать решение для администрирования аварийного восстановления, которое работает как в среде AWS, так и в среде Azure/GCP и может быстро организовать репликацию информации из экземпляра SQL Server в AWS в хранилище, подключенное к инфраструктуре в вашей облачной среде Azure/GCP. Если вы действительно не развернете один и тот же вариант администрирования аварийного восстановления в двух средах, возможно, вы не сможете должным образом воспроизвести свои знания с использованием облаков.

Вы также захотите настроить высокоскоростное цифровое частное сообщество (VPN) между вашей основной инфраструктурой и инфраструктурой аварийного восстановления. AWS, Azure и GCP — все они представляют продукты и услуги VPN, которые могут обеспечить безопасную связь между облаками (а также существуют альтернативы 3-го объединения), и это станет каналом, с помощью которого ваш ответ по управлению аварийным восстановлением будет воспроизводить ваш ответ. важную информацию между облачными инфраструктурами. Конечно, если вы использовали средство AWS VPN Remedy в декабре, возможно, оно уже давно отключилось из-за сбоя, но в этом сценарии все в порядке. Административное разрешение аварийного восстановления, управляемое на AWS, реплицирует все операции записи по соседству в его аналог хранилища в инфраструктуре аварийного восстановления настолько быстро, насколько это позволяет сообщество, поэтому к тому времени, когда поставщики AWS перейдут в автономный режим, программное обеспечение аварийного восстановления реплицирует все (или почти все) жизненно важных данных AWS в инфраструктуру аварийного восстановления. Как только станет ясно, что ключевое облако отсутствует в автономном режиме, вы развернете инфраструктуру в облаке аварийного восстановления, и оно сможет начать доставлять потребителю данные для ваших основных целей с минимальными перебоями. Возможно, вы не сможете справиться с задачей восстановления высокой доступности менее чем за 5 минут, но вы будете работать значительно быстрее, чем если бы вам пришлось продержаться в течение 7 часов, пока AWS не получит доступ. его операции возобновились.

Доступность программного обеспечения

В конечном счете, настройка высокой доступности сводится к настройке, обеспечивающей существенную доступность вашего приложения. Вы можете сгенерировать FCI, которые гарантируют высокую доступность ваших виртуальных машин и хранилища без каких-либо проблем. Все поставщики облачной поддержки привыкли обслуживать вас на этом уровне. Однако для правильной сквозной высокой доступности вам необходимо платить за дополнительную осведомленность обо всех других обратных звеньях в цепочке доступности. Некоторые из них будут слабее, чем вы осознаете, если только вы не примете чрезмерных мер для их усиления.

Дэйв Бермингем, старший технический евангелист, SIOS Технологические инновации