Rafforzare la catena della disponibilità | ITProPortal
Pubblicato: 2022-01-10A cosa credi inizialmente quando pensi di assicurarti la disponibilità superiore (HA) delle tue app e dei tuoi dettagli più importanti? Se voi oi vostri consumatori avete bisogno di essere in grado di accedere a queste applicazioni 99,99 pc del tempo, è del tutto naturale presumere prima di tutto di garantire l'accessibilità alle fonti di calcolo e archiviazione. Se stai utilizzando SQL Server nel cloud, ad esempio, puoi configurare un'istanza del cluster di failover (FCI) di Windows Home per rispondere all'errore delle origini di calcolo o archiviazione spostando istantaneamente i carichi di calcolo e archiviazione su un nodo alternativo del cluster di failover. HA problema risolto!
Ma cosa succede se non sono i mezzi di calcolo o archiviazione che non hanno successo? Ci sono molti backlink nella catena di disponibilità che connettono te e i tuoi acquirenti alle risorse di calcolo e archiviazione individuali. Devi pensare a tutti quei collegamenti per garantire l'esperienza di lavoro in HA che stai cercando di ottenere.
Disponibilità di rete
Se stai facendo funzionare le tue applicazioni significative nel cloud, la tua società di supporto cloud sarà certa della disponibilità dell'intranet che collega i fattori della tua infrastruttura cloud. AWS, Azure e Google Cloud System forniscono tutti una velocità superiore, reti interne robuste con una serie di percorsi, quindi le reti cloud principali sono assolutamente in grado di supportare il tuo target di 99,99 pc HA.
Semplicemente non puoi gestire il modo in cui i tuoi acquirenti si collegano ai tuoi programmi basati principalmente su cloud, ma puoi comandare come unirti a loro. È possibile che tu stia utilizzando un gateway VPN o servizi di connettività dedicati come Azure ExpressRoute, AWS Direct Connect o Google Direct Interconnect. Tutte queste soluzioni possono fornire una connessione al cloud a velocità significativa e latenza molto bassa, ma tutte forniscono SLA diversi e molte di esse espongono backlink deboli nella catena di disponibilità. La configurazione standard di Azure ExpressRoute offre solo una disponibilità di 99,95 PC, assicurando che la configurazione essenziale di AWS Immediate Join sia ancora più bassa: solo 99,9 PC. Se il provider potrebbe fallire in modo imprevisto, l'accessibilità alle tue app cruciali potrebbe essere limitata per molto più tempo di quanto ti aspetti. In verità, le VM configurate per HA nei cloud Azure o AWS potrebbero continuare a funzionare senza interruzioni, ma è facile e comodo se non puoi accedervi a causa del fatto che ExpressRoute o Immediate Join non sono attivi.
Puoi configurare Azure ExpressRoute o AWS Immediate Connect per HA, l'organizzazione può solo richiedere. Sarà necessario configurare almeno due circuiti ExpressRoute e 4 circuiti Immediate Join per acquisire uno SLA del 99,99%. Se stai utilizzando i provider analoghi su GCP, ti consigliamo di utilizzare l'assistenza per l'interconnessione immediata di Google per le applicazioni in fase di creazione rispetto ai servizi di interconnessione immediata di Google per le applicazioni non critiche per ottenere lo SLA 99,99 per PC.
Disponibilità delle infrastrutture
Anche se si rafforzano i deboli collegamenti unidirezionali nella rete, tuttavia, continuano a esserci potenziali backlink deboli all'interno dell'infrastruttura cloud stessa, tra bilanciatori di carico, server DNS, server di identità e autenticazione, server farm di siti Web e simili. Non dimenticare l'interruzione davvero pubblica su Facebook nell'ottobre del 2021? Le interruzioni che influenzavano l'accesso ai server DNS interni di Facebook, non i metodi di produzione che supportano i principali ceppi aziendali di Facebook, erano affidabili per far crollare l'intera attività per ore. Devi esaminare questi componenti della tua infrastruttura generale nel modo più efficace per assicurarti di essere assolutamente configurato per HA.
Lo SLA di Google per le soluzioni di server DNS è di 100 PC, il che è incoraggiante, ma il suo SLA per le società di Cloud Id è solo del 99,9%. Allo stesso modo, il supporto DNS non pubblico di Route 53 di AWS si sforza di fornire uno SLA del 100%, ma la sua offerta di soluzioni di directory raggiunge il 99,9%. I prodotti e i servizi fondamentali e di qualità di Azure Energetic Directory offrono uno SLA di 100 PC, ma lo SLA per i servizi Azure Active Listing Domain Expert supera il 99,9%.
Come con la connettività della comunità, ci sono problemi che si possono fare per aumentare l'affidabilità dell'infrastruttura interna che supporta le tue app vitali basate sul cloud. Ad esempio, puoi configurare il tuo ambiente naturale AWS con molti controller di area, il che può rafforzare l'affidabilità dei prodotti e dei servizi in elenco AWS che si avvicinano ai gradi di accessibilità del 99,99% che cerchi.
L'alternativa multi-cloud
Ci sono periodi, tuttavia, come nell'interruzione di 7 ore di AWS del 7 dicembre 2021, il luogo in cui anche le aziende più ben preparate potrebbero incontrare tempi di inattività imprevisti. Nella circostanza dell'interruzione di AWS, i problemi non derivavano dai dispositivi che i potenziali clienti stavano utilizzando ma, come osserva AWS, da problemi che si verificavano in una comunità interna fatta "per ospitare servizi fondamentali, come monitoraggio, DNS interno, prodotti e servizi di autorizzazione, ed elementi del piano di comando EC2.”* Infatti, in diverse condizioni, le VM su cui erano state gestite le app dei clienti sono rimaste operative e completamente conformi agli SLA HA, ma i client non hanno potuto accedere alle loro app a causa di problemi con i gateway, i prodotti DNS interni e servizi, bilanciatori di carico e altre parti la cui capacità di funzionare correttamente è stata compromessa dalle conseguenze a cascata degli errori che si sono verificati sulla comunità interna.
In che modo le tue applicazioni possono continuare a essere operative e accessibili quando il debole backlink nella catena di disponibilità si rivela essere il cloud stesso? La tua più grande possibilità in questo articolo è dipendere da una risposta di ripristino da catastrofe (DR) multi-cloud. Fondamentalmente, svilupperesti un'infrastruttura mirror per supportare i tuoi programmi più vitali in un cloud completamente individuale. Se la tua infrastruttura SQL Server cruciale opera su AWS, ad esempio, produrresti un'occasione simile di SQL Server su Azure o GCP, un'occasione in cui potresti avviare manualmente se il cloud AWS andasse offline. Ti consigliamo di scegliere una risposta di amministrazione di DR che venga eseguita sia negli ambienti AWS che in Azure/GCP e che possa orchestrare rapidamente la replica delle informazioni dall'istanza di SQL Server in AWS allo storage connesso all'infrastruttura nell'ambiente cloud Azure/GCP. Se davvero non distribuisci l'opzione di amministrazione DR simile nei due ambienti, potresti non replicare le tue conoscenze in modo appropriato coinvolgendo i cloud.
Vorrai anche configurare una relazione di comunità privata digitale (VPN) a velocità sostanziale tra la tua infrastruttura principale e quella di ripristino di emergenza. AWS, Azure e GCP presentano tutti prodotti e servizi VPN che possono consentire un collegamento sicuro da cloud a cloud (e ci sono anche alternative di 3a riunione), e questo diventerà il canale attraverso il quale la tua risposta di gestione del ripristino di emergenza replica la tua informazioni significative tra le infrastrutture cloud. Ovviamente, se hai utilizzato un rimedio VPN AWS a dicembre, potrebbe essere andato offline da tempo nel corso dell'interruzione, ma in questo scenario va bene. La risoluzione dell'amministrazione del DR che gestisce su AWS replica tutte le operazioni di scrittura del vicinato sulla sua controparte di storage nell'infrastruttura di DR non appena la comunità lo consentirà, quindi quando i provider AWS sono andati offline il software DR avrebbe replicato tutto (o quasi tutti) dei dati AWS vitali per l'infrastruttura DR. Non appena era evidente che il cloud principale era assente offline, avresti fatto girare l'infrastruttura nel cloud di ripristino di emergenza e potresti iniziare a fornire ai consumatori i tuoi scopi principali con interruzioni trascurabili. Potresti non essere attivo e gestire nel periodo di tempo inferiore ai 5 minuti su cui conti per un rimedio HA, ma saresti operativo molto più rapidamente di quanto saresti se avessi sperimentato di resistere per 7 diverse ore affinché AWS possa ottenere le sue operazioni di nuovo in linea.
Disponibilità del software
A lungo termine, la configurazione per HA significa configurare per essere certi della disponibilità sostanziale dell'applicazione. Puoi generare FCI che garantiranno l'HA delle tue VM e storage senza problemi. Tutti i fornitori di assistenza cloud sono abituati ad accoglierti a quel livello. Per un corretto HA da conclusione a conclusione, tuttavia, è necessario pagare una maggiore consapevolezza a tutti gli altri collegamenti a ritroso nella catena di disponibilità. Alcuni saranno più deboli di quanto riconosci, tranne per il fatto che prendi modi eccessivi per rafforzarli.
Dave Bermingham, Senior Technical Evangelist, SIOS Innovazione tecnologica