เสริมสร้างความพร้อมใช้งานของห่วงโซ่ | ITProPortal

เผยแพร่แล้ว: 2022-01-10

คุณเชื่ออะไรในตอนแรกเมื่อใคร่ครวญเกี่ยวกับความพร้อมใช้งานที่เหนือกว่า (HA) ของแอปและรายละเอียดที่สำคัญที่สุดของคุณ หากคุณหรือผู้บริโภคของคุณต้องการเข้าถึงแอปพลิเคชันเหล่านี้ 99.99 ชิ้นในแต่ละครั้ง เป็นเรื่องปกติธรรมดาที่จะถือว่าก่อนอื่นเกี่ยวกับการรับประกันการเข้าถึงแหล่งที่มาของการประมวลผลและที่เก็บข้อมูล หากคุณกำลังใช้งาน SQL Server ในระบบคลาวด์ ตัวอย่างเช่น คุณสามารถกำหนดค่า Home windows Failover Cluster Instance (FCI) เพื่อตอบสนองต่อความล้มเหลวของแหล่งที่มาของการประมวลผลหรือที่เก็บข้อมูลโดยไปที่การคำนวณและที่เก็บข้อมูลโหลดไปยังโหนดสำรองทันที ของคลัสเตอร์เฟลโอเวอร์ แก้ปัญหา HA!

แต่ถ้าไม่ใช่การคำนวณหรือการจัดเก็บหมายความว่าไม่สำเร็จล่ะ มีลิงก์ย้อนกลับมากมายในห่วงโซ่ความพร้อมใช้งานที่เชื่อมโยงคุณและผู้ซื้อของคุณกับทรัพยากรการประมวลผลและการจัดเก็บข้อมูลส่วนบุคคล คุณต้องคิดถึงลิงก์เหล่านั้นทั้งหมดเพื่อให้แน่ใจว่าประสบการณ์การทำงานของ HA ที่คุณพยายามบรรลุ

ความพร้อมใช้งานของเครือข่าย

หากคุณกำลังใช้งานแอปพลิเคชันที่สำคัญในระบบคลาวด์ บริษัทสนับสนุนระบบคลาวด์ของคุณจะมีความพร้อมใช้งานของอินทราเน็ตที่เชื่อมต่อปัจจัยต่างๆ ของโครงสร้างพื้นฐานระบบคลาวด์ของคุณ AWS, Azure และ Google Cloud System ล้วนให้ความเร็วที่เหนือกว่า เครือข่ายภายในที่แข็งแกร่งพร้อมเส้นทางที่หลากหลาย ดังนั้นเครือข่ายคลาวด์หลักจึงสามารถรองรับเป้าหมาย HA 99.99 pc ของคุณได้อย่างแน่นอน

คุณไม่สามารถจัดการวิธีที่ผู้ซื้อของคุณเชื่อมโยงกับโปรแกรมส่วนใหญ่ในระบบคลาวด์ได้ แต่คุณสามารถสั่งวิธีเข้าร่วมกับพวกเขาได้ คุณอาจกำลังใช้ VPN Gateway หรือบริการเชื่อมต่อเฉพาะเช่น Azure ExpressRoute, AWS Direct Connect หรือ Google Direct Interconnect โซลูชันทั้งหมดเหล่านี้สามารถให้การเชื่อมต่อที่รวดเร็วและมีเวลาแฝงที่ต่ำมากกับระบบคลาวด์แก่คุณได้ แต่โซลูชันทั้งหมดมี SLA ที่แตกต่างกัน และหลายๆ โซลูชันก็เปิดเผยลิงก์ย้อนกลับที่อ่อนแอในห่วงโซ่ความพร้อมใช้งาน การกำหนดค่ามาตรฐานของ Azure ExpressRoute ให้ความพร้อมใช้งานของพีซี 99.95 เท่านั้น ทำให้มั่นใจได้ว่าการกำหนดค่าที่สำคัญของ AWS Immediate Join นั้นต่ำกว่าเพียง 99.9 พีซีเท่านั้น หากผู้ให้บริการอาจล้มเหลวโดยไม่คาดคิด การเข้าถึงแอปที่สำคัญของคุณอาจถูกจำกัดเวลานานกว่าที่คุณคาดการณ์ไว้มาก ในความเป็นจริง VMs ที่กำหนดค่าสำหรับ HA ใน Azure หรือ AWS Cloud อาจทำงานต่อไปโดยไม่หยุดชะงัก แต่นั่นก็เป็นเรื่องที่ง่ายดายและสะดวกสบายหากคุณไม่สามารถเข้าถึงได้เนื่องจาก ExpressRoute หรือ Immediate Join ไม่ทำงาน

คุณสามารถกำหนดค่า Azure ExpressRoute หรือ AWS Immediate Connect สำหรับ HA ได้ เพียงแค่จัดระเบียบ คุณจะต้องกำหนดค่าอย่างน้อยสองวงจร ExpressRoute และ 4 วงจร Immediate Join เพื่อรับ SLA 99.99% หากคุณกำลังใช้ผู้ให้บริการที่คล้ายคลึงกันบน GCP คุณจะต้องใช้ Google Immediate Interconnect Assistance สำหรับแอปพลิเคชัน Creation-Stage แทน Google Immediate Interconnect Services สำหรับแอปพลิเคชันที่ไม่สำคัญเพื่อรับ 99.99 pc SLA

ความพร้อมใช้งานของโครงสร้างพื้นฐาน

แม้ว่าคุณจะสนับสนุนลิงก์ทางเดียวที่อ่อนแอในเครือข่าย แต่ก็ยังมีลิงก์ย้อนกลับที่มีแนวโน้มอ่อนแออยู่ภายในโครงสร้างพื้นฐานคลาวด์ด้วย — ในบรรดาโหลดบาลานเซอร์, เซิร์ฟเวอร์ DNS, เซิร์ฟเวอร์ข้อมูลประจำตัวและการตรวจสอบสิทธิ์, ฟาร์มเซิร์ฟเวอร์เว็บไซต์ และอื่นๆ อย่าลืมการหยุดทำงานของสาธารณะจริงๆ ที่ Facebook ในเดือนตุลาคม 2021 การหยุดทำงานที่ส่งผลต่อการเข้าสู่เซิร์ฟเวอร์ DNS ภายในของ Facebook ไม่ใช่วิธีการผลิตที่สนับสนุนสายธุรกิจหลักของ Facebook ที่พึ่งพาได้ในการทำให้ธุรกิจทั้งหมดล่มสลายเป็นเวลาหลายชั่วโมง คุณต้องดูส่วนประกอบเหล่านี้ในโครงสร้างพื้นฐานทั่วไปของคุณอย่างมีประสิทธิภาพเพื่อให้แน่ใจว่าคุณได้รับการกำหนดค่าสำหรับ HA อย่างสมบูรณ์

SLA ของ Google สำหรับโซลูชันเซิร์ฟเวอร์ DNS คือ 100 ชิ้น ซึ่งน่ายินดี แต่ SLA สำหรับบริษัท Cloud Id นั้นมีเพียง 99.9% เท่านั้น ในทำนองเดียวกัน การสนับสนุน DNS ที่ไม่ใช่แบบสาธารณะของ Route 53 ของ AWS มุ่งมั่นที่จะจัดหา SLA 100 เปอร์เซ็นต์ แต่ Directory Solutions นำเสนออยู่ที่ 99.9% ผลิตภัณฑ์และบริการขั้นพื้นฐานของ Azure Energetic Directory และคุณภาพให้ SLA 100 ชิ้น แต่ SLA สำหรับ Azure Active Listing Domain Expert บริการอยู่ที่ 99.9%

เช่นเดียวกับการเชื่อมต่อของชุมชน มีปัญหาที่สามารถทำได้เพื่อเพิ่มความน่าเชื่อถือของโครงสร้างพื้นฐานภายในที่สนับสนุนแอปบนระบบคลาวด์ที่สำคัญของคุณ ในกรณีดังกล่าว คุณสามารถกำหนดค่าสภาพแวดล้อมทางธรรมชาติของ AWS ด้วยตัวควบคุมพื้นที่หลายตัว ซึ่งสามารถเสริมสร้างความเชื่อถือได้ของผลิตภัณฑ์และบริการในรายชื่อ AWS ที่มีระดับความสามารถในการเข้าถึงได้ใกล้ถึง 99.99 เปอร์เซ็นต์ที่คุณต้องการ

ทางเลือกมัลติคลาวด์

อย่างไรก็ตาม มีบางช่วง เช่น ในการหยุดทำงานของ AWS เป็นเวลา 7 ชั่วโมงในวันที่ 7 ธันวาคม 2021 สถานที่ที่แม้แต่บริษัทที่เตรียมพร้อมดีที่สุดก็อาจต้องหยุดชะงักโดยไม่คาดคิด ในสถานการณ์ที่ AWS หยุดทำงาน ปัญหาไม่ได้เกิดจากอุปกรณ์ที่ผู้มีแนวโน้มจะเป็นลูกค้าใช้ แต่ตามที่ AWS บันทึกไว้ จากปัญหาที่เกิดขึ้นในชุมชนภายใน "ไปจนถึงโฮสต์บริการพื้นฐาน เช่น การตรวจสอบ DNS ภายใน ผลิตภัณฑ์และบริการการอนุญาต และองค์ประกอบของระนาบคำสั่ง EC2”* ในความเป็นจริง VMs ที่แอปของลูกค้าจัดการอยู่นั้นยังคงใช้งานได้ตามปกติและสอดคล้องกับ HA SLA ในเงื่อนไขหลายประการ แต่ลูกค้าไม่สามารถเข้าถึงแอปของตนได้เนื่องจากมีปัญหากับเกตเวย์ ผลิตภัณฑ์ DNS ภายใน และบริการ ตัวโหลดบาลานซ์ และส่วนอื่นๆ ที่ความสามารถในการทำงานอย่างถูกต้องได้รับผลกระทบจากผลที่ตามมาของข้อผิดพลาดที่เกิดขึ้นในชุมชนภายใน

แอปพลิเคชันของคุณจะยังคงใช้งานได้และสามารถเข้าถึงได้เมื่อลิงก์ย้อนกลับที่อ่อนแอในห่วงโซ่ความพร้อมใช้งานกลายเป็นคลาวด์เองได้อย่างไร ความเป็นไปได้สูงสุดของคุณในบทความนี้คือการพึ่งพาคำตอบสำหรับการกู้คืนหายนะแบบมัลติคลาวด์ โดยพื้นฐานแล้ว คุณจะต้องพัฒนาโครงสร้างพื้นฐานมิเรอร์เพื่อสนับสนุนโปรแกรมที่สำคัญที่สุดของคุณในระบบคลาวด์ส่วนบุคคลโดยสมบูรณ์ หากโครงสร้างพื้นฐาน SQL Server ที่สำคัญของคุณทำงานบน AWS ตัวอย่างเช่น คุณอาจสร้างโอกาสที่คล้ายคลึงกันของ SQL Server บน Azure หรือ GCP ซึ่งเป็นโอกาสที่คุณสามารถเริ่มต้นใช้งานด้วยตนเองได้หาก AWS Cloud ออฟไลน์ คุณจะต้องเลือกคำตอบการดูแลระบบ DR ที่ทำงานทั้งในสภาพแวดล้อม AWS และ Azure/GCP และสามารถจัดการการจำลองข้อมูลจากอินสแตนซ์ของ SQL Server ใน AWS ไปยังพื้นที่จัดเก็บที่เชื่อมต่อกับโครงสร้างพื้นฐานในสภาพแวดล้อมระบบคลาวด์ Azure/GCP ของคุณได้อย่างรวดเร็ว หากคุณไม่ได้ปรับใช้ตัวเลือกการดูแลระบบ DR ที่คล้ายกันในสองสภาพแวดล้อม คุณอาจไม่สามารถทำซ้ำความรู้ของคุณที่เกี่ยวข้องกับคลาวด์อย่างเหมาะสม

คุณจะต้องการกำหนดค่าความสัมพันธ์ชุมชนส่วนตัวดิจิทัล (VPN) ที่มีความเร็วสูงระหว่างโครงสร้างพื้นฐานหลักและโครงสร้างพื้นฐาน DR ของคุณ AWS, Azure และ GCP นำเสนอผลิตภัณฑ์และบริการ VPN ทั้งหมดที่สามารถอนุญาตลิงก์จากระบบคลาวด์สู่ระบบคลาวด์ได้อย่างปลอดภัย (และมีทางเลือกที่สามร่วมกันด้วยเช่นกัน) และนี่จะกลายเป็นท่อส่งที่คำตอบสำหรับการจัดการ DR ของคุณจะทำซ้ำ ข้อมูลสำคัญระหว่างโครงสร้างพื้นฐานของระบบคลาวด์ แน่นอน ถ้าคุณใช้ AWS VPN Remedy ในเดือนธันวาคม มันอาจจะออฟไลน์ไปนานแล้วในช่วงที่ไฟดับ – แต่ในสถานการณ์นี้ก็โอเค การแก้ปัญหาการดูแลระบบ DR ที่จัดการบน AWS จะจำลองการดำเนินการเขียนในละแวกใกล้เคียงทั้งหมดไปยังคู่ของพื้นที่จัดเก็บในโครงสร้างพื้นฐาน DR ทันทีที่ชุมชนจะทำให้เป็นไปได้ ดังนั้นเมื่อผู้ให้บริการของ AWS ออฟไลน์ ซอฟต์แวร์ DR จะทำซ้ำทั้งหมด (หรือ เกือบทั้งหมด) ข้อมูล AWS ที่สำคัญไปยังโครงสร้างพื้นฐาน DR ทันทีที่เห็นได้ชัดว่าคีย์คลาวด์ไม่ได้ออฟไลน์ คุณจะขยายโครงสร้างพื้นฐานในระบบคลาวด์ DR และอาจเริ่มต้นโดยการส่งมอบให้ผู้บริโภคได้รับตามวัตถุประสงค์ที่จำเป็นของคุณโดยมีการหยุดชะงักเพียงเล็กน้อย คุณอาจไม่พร้อมและจัดการในกรอบเวลาย่อย 5 นาทีที่คุณวางใจในวิธีการรักษา HA แต่คุณจะสามารถดำเนินการได้เร็วกว่าที่เป็นอยู่อย่างมาก หากคุณเคยประสบกับความล่าช้า 7 ชั่วโมงเพื่อให้ AWS ได้รับ การดำเนินการกลับมาออนไลน์

ความพร้อมใช้งานของซอฟต์แวร์

ในระยะยาว การกำหนดค่าสำหรับ HA นั้นเกี่ยวกับการกำหนดค่าเพื่อให้แน่ใจว่ามีความพร้อมใช้งานอย่างมากของแอปพลิเคชันของคุณ คุณสามารถสร้าง FCI ที่จะรับประกัน HA ของ VM และพื้นที่เก็บข้อมูลของคุณโดยไม่มีปัญหา ผู้ให้บริการระบบคลาวด์ทั้งหมดคุ้นเคยกับการรองรับคุณในระดับนั้น อย่างไรก็ตาม สำหรับ HA ที่สรุปผลเพื่อสรุปผลที่ถูกต้อง คุณจะต้องเพิ่มการรับรู้ให้กับลิงก์ย้อนกลับอื่นๆ ทั้งหมดในห่วงโซ่ความพร้อมใช้งาน บางคนจะอ่อนแอกว่าที่คุณรู้จัก เว้นแต่คุณจะใช้วิธีมากเกินไปในการเสริมกำลังพวกเขา

Dave Bermingham, Senior Technical Evangelist, SIOS นวัตกรรมเทคโนโลยี