แก้ไขปริศนาความรู้ด้วย HPC และ AI
เผยแพร่แล้ว: 2021-12-15ซูเปอร์คอมพิวเตอร์เกิดขึ้นมาไกลเมื่อพิจารณาจากจุดเริ่มต้นในปี 1960 ในขั้นต้น ซูเปอร์คอมพิวเตอร์จำนวนมากลงเอยที่เมนเฟรมเป็นหลัก แม้กระนั้น ป้ายราคาและความซับซ้อนก็เป็นขอบเขตที่สำคัญในการเข้าสู่สถานประกอบการจำนวนมาก ความคิดที่จะใช้พีซีราคาประหยัดจำนวนมากในชุมชนเพื่อนำเสนอการประมวลผลแบบขนานที่คุ้มค่าราคา ได้นำสถาบันสำรวจไปตามเส้นทางของคลัสเตอร์ superior-efficiency Computing (HPC) ที่ตั้งค่าคลัสเตอร์ "Beowulf" ในทศวรรษที่ 90 .
คลัสเตอร์ Beowulf เป็นกลุ่มรุ่นก่อนของคลัสเตอร์ HPC ในปัจจุบันเป็นอย่างมาก พื้นฐานของสถาปัตยกรรม Beowulf ยังคงใช้ได้กับการปรับใช้ HPC ในวันทำการปัจจุบัน อย่างไรก็ตาม เดสก์ท็อปพีซีจำนวนหนึ่งได้รับการเปลี่ยนแปลงด้วยแพลตฟอร์มเซิร์ฟเวอร์ที่มีความหนาแน่นสูงซึ่งสร้างขึ้นตามวัตถุประสงค์ เครือข่ายได้รับการปรับปรุงอย่างเห็นได้ชัดด้วย InfiniBand แบนด์วิดท์/ลดเวลาแฝงที่สูงกว่า (หรือเป็นอีเทอร์เน็ตที่เพิ่มมากขึ้นในอดีต) และระบบไฟล์คู่ขนานประสิทธิภาพสูงทั่วไป เช่น SpectrumScale, Luster และ BeeGFS ได้รับการออกแบบมาเพื่อให้พื้นที่จัดเก็บสามารถคงอยู่ต่อไปได้ ขึ้นกับการคำนวณ การปรับปรุงอุปกรณ์ที่ยอดเยี่ยมซึ่งมักจะเป็นโอเพนซอร์ซสำหรับการควบคุมการประมวลผลแบบกระจายประสิทธิภาพที่เหนือกว่านั้นยังทำให้การนำไปใช้มีความซับซ้อนน้อยลงอีกด้วย
อีกมากเมื่อเร็วๆ นี้ เราได้เห็นความก้าวหน้าของ HPC จากคลัสเตอร์จริงที่ขึ้นกับ CPU ไปจนถึงโปรแกรมที่ทำการประมวลผลจำนวนมากบน Graphic Processing Models (GPU) ส่งผลให้มีการพัฒนา GPU เร่งการประมวลผล
ข้อเท็จจริงและการคำนวณ – จุดประสงค์ของ GPU
แม้ว่า HPC จะขยายขนาดด้วยแหล่งที่มาของการประมวลผลเพิ่มเติม แต่ข้อมูลก็ขยายตัวด้วยความเร็วที่เร็วขึ้นอย่างมาก เนื่องจากเริ่มต้นปี 2010 ข้อมูลที่ไม่มีโครงสร้างเพิ่มขึ้นอย่างมากจากแหล่งข้อมูลต่างๆ เช่น เว็บแชท กล้อง เซ็นเซอร์ การสื่อสารผ่านวิดีโอออนไลน์ และอื่นๆ สิ่งนี้ทำให้เกิดปัญหาด้านข้อมูลจำนวนมากสำหรับการจัดเก็บ การประมวลผล และการถ่ายโอน กระบวนทัศน์ของนวัตกรรมทางเทคโนโลยีล่าสุดประเภทนี้เป็นข้อมูลขนาดใหญ่ การประมวลผลแบบคู่ขนาน คลาวด์คอมพิวติ้ง Net of Issues (IoT) และปัญญาประดิษฐ์ (AI) ที่เข้ามาในกระแสหลักเพื่อรับมือกับปัญหาที่เกิดจากการโจมตีของข้อมูล
สิ่งที่กระบวนทัศน์เหล่านี้ล้วนมีแพร่หลายก็คือพวกเขาสามารถถูกขนานไปสู่ระดับที่เหนือกว่า การประมวลผลแบบขนาน GPU ของ HPC เป็นตัวเปลี่ยนกิจกรรมที่แท้จริงสำหรับ AI เนื่องจากการประมวลผลแบบขนานสามารถประมวลผลข้อมูลทั้งหมดนี้ได้ในเวลาจำกัดในการทำงานกับ GPU เมื่อปริมาณงานพัฒนาขึ้น การประมวลผลแบบคู่ขนานของ GPU และการค้นหาเครื่อง AI ก็เช่นกัน การประเมินความประทับใจเป็นตัวอย่างที่ยอดเยี่ยมว่าพลังงานไฟฟ้าของการประมวลผล GPU สามารถช่วยเหลือโครงการ AI ได้อย่างไร การใช้ GPU ตัวเดียวจะใช้เวลา 72 ชั่วโมงในการเข้าถึงผลิตภัณฑ์การศึกษาเชิงลึกเกี่ยวกับภาพ แต่จะใช้เวลาเพียง 20 นาทีในการใช้งานผลิตภัณฑ์ AI เดียวกันบนคลัสเตอร์ HPC ที่มี 64 GPUs
HPC รองรับความก้าวหน้าของ AI อย่างไร
Beowulf ยังคงเกี่ยวข้องกับปริมาณงาน AI ที่เก็บข้อมูล เครือข่าย และการประมวลผลมีความสำคัญอย่างยิ่งในการทำให้งาน AI ดำเนินการตามขนาด เมื่อ AI สามารถใช้ประโยชน์จากสภาพแวดล้อมแบบขนานขนาดใหญ่ที่โครงสร้างพื้นฐาน HPC (พร้อม GPU) มอบให้เพื่อเปิดใช้งานปริมาณงานการดำเนินการอย่างรวดเร็ว การเรียนการสอนผลิตภัณฑ์ AI ใช้เวลานานกว่าการทดสอบเพียงครั้งเดียว คุณค่าของการจับคู่ AI กับ HPC คือการเร่ง 'ขั้นตอนการฝึกอบรม' ได้อย่างมาก และเพิ่มความแม่นยำและความน่าเชื่อถือของการออกแบบ AI แม้ว่าจะรักษาเวลาในการฝึกอบรมให้เหลือน้อยที่สุดก็ตาม
ต้องการแอปพลิเคชันที่เหมาะสมเพื่อรองรับการผสมผสาน HPC และ AI มีผลิตภัณฑ์และวัตถุประสงค์แบบเดิมๆ ที่กำลังถูกใช้เพื่อดำเนินการปริมาณงาน AI จากในสภาพแวดล้อม HPC เพียงอย่างเดียว เนื่องจากมีจำนวนมากที่มีความจำเป็นเช่นเดียวกันสำหรับการรวมกลุ่มของวิธีการจำนวนมากและจัดการสิ่งเหล่านี้ ในทางกลับกัน ทุกอย่างตั้งแต่ส่วนประกอบพื้นฐาน ตัวจัดกำหนดการที่ใช้ Message Passing Interface (MPI) และแม้กระทั่งวิธีการจัดแพ็คเกจซอฟต์แวร์คอมพิวเตอร์ก็เริ่มปรับเปลี่ยนไปในทิศทางของรูปแบบที่ปรับเปลี่ยนได้มากขึ้น สภาพแวดล้อมแบบไฮบริดคือการพัฒนาที่เราคิดว่าจะดำเนินต่อไป
เนื่องจากเงื่อนไขการใช้งานทั่วไปสำหรับโปรแกรม HPC ได้รับการพิสูจน์อย่างสมบูรณ์แล้ว การดัดแปลงมักจะเกิดขึ้นค่อนข้างช้าแต่แน่นอน ถึงกระนั้น การอัปเดตสำหรับแอป HPC จำนวนมากก็มีความสำคัญทุกๆ 6 ถึง 12 เดือนเท่านั้น ในทางกลับกัน ความก้าวหน้าของ AI กำลังเกิดขึ้นอย่างรวดเร็ว การอัปเดตและวัตถุประสงค์ใหม่ อุปกรณ์และห้องสมุดยังคงถูกปล่อยออกมาทุกวัน
หากคุณใช้กลยุทธ์การอัปเดตเดียวกันในการจัดการ AI ของคุณเหมือนกับที่ทำกับแพลตฟอร์ม HPC คุณจะโดนทิ้งให้อยู่ด้านหลัง นั่นคือเหตุผลที่ความละเอียดเช่นระบบคอนเทนเนอร์ DGX ของ NVIDIA ช่วยให้คุณรักษาข้อมูลล่าสุดได้อย่างรวดเร็วและสะดวกด้วยการพัฒนาอย่างรวดเร็วจาก NVIDIA GPU CLOUD (NGC) ซึ่งเป็นฐานข้อมูลบนเว็บของอุปกรณ์ AI และ HPC ที่ห่อหุ้มในภาชนะที่รับประทานได้ง่าย
เริ่มเป็นเรื่องปกติในชุมชนท้องถิ่นของ HPC เพื่อใช้ระบบคอนเทนเนอร์เพื่อควบคุมโอกาสที่เป็นประโยชน์สำหรับการปรับใช้ AI Containerization ได้เร่งคำแนะนำสำหรับปริมาณงาน AI บนคลัสเตอร์ HPC
การส่งคืน – AI รองรับปัญหา HPC แบบคลาสสิกอย่างไร
สามารถใช้ผลิตภัณฑ์ AI เพื่อทำนายผลลัพธ์สุดท้ายของการจำลองโดยไม่ต้องเป็นเจ้าของเพื่อดำเนินการการจำลองทั้งหมดแบบเน้นแหล่งที่มา ด้วยการใช้ผลิตภัณฑ์ AI ในลักษณะนี้ ตัวแปรอินพุต/ปัจจัยเลย์เอาต์ของความอยากรู้สามารถจำกัดให้แคบลงไปจนถึงรายชื่อผู้มีโอกาสเป็นลูกค้าได้ทันทีและมีค่าใช้จ่ายลดลงอย่างมาก ตัวแปรที่คาดหวังเหล่านี้สามารถเรียกใช้โดยใช้การจำลองที่รับทราบแล้วเพื่อตรวจสอบความถูกต้องของการคาดการณ์ของแบบจำลอง AI
Quantum Molecular Simulations (QMS), Chip Structure และ Drug Discovery เป็นที่ที่กระบวนการนี้มีการใช้งานมากขึ้น IBM เพิ่งเปิดตัวรายการที่เรียกว่า IBM Bayesian Optimization Accelerator (BOA) โดยเฉพาะ
ผู้ผสานรวม HPC สามารถช่วยโครงสร้างพื้นฐาน AI ของคุณได้อย่างไร
เริ่มต้นด้วยคำถามสองสามข้อที่ตรงไปตรงมา ความยากของฉันมันมากขนาดไหน? ฉันต้องการให้ผลลัพธ์กลับมาเร็วแค่ไหน? ฉันต้องมีความรู้มากน้อยเพียงใดในการดำเนินการ? มีคนแบ่งปันทรัพยากรที่มีประโยชน์กี่คน?
ขั้นตอน HPC จะช่วยให้สามารถจัดการการดำเนินการ AI หากชุดข้อมูลที่มีอยู่มีขนาดใหญ่ หรือหากความท้าทายในการแข่งขันกำลังประสบกับโครงสร้างพื้นฐานจากการรับผู้ใช้หลายราย หากคุณมีปัญหาที่คุณต้องตั้งค่า GPU สี่ตัวในเวิร์กสเตชันและสิ่งนี้กำลังประสบปัญหาโดยทำให้เกิดปัญหาคอขวด คุณต้องปรึกษากับผู้ผสานรวม HPC ที่มีความรู้ในการปรับขนาดโครงสร้างพื้นฐานสำหรับประเภทนี้ ปริมาณงาน
บางองค์กรอาจใช้เวิร์กโหลด AI บนอุปกรณ์ขนาดใหญ่หรือหลายเครื่องที่มี GPU และโครงสร้างพื้นฐาน AI ของคุณอาจดูเหมือนโครงสร้างพื้นฐาน HPC มากกว่าที่คุณเข้าใจ มีวิธี HPC แอปพลิเคชันและด้านอื่น ๆ ที่สามารถสนับสนุนการควบคุมโครงสร้างพื้นฐานนั้นได้อย่างแน่นอน โครงสร้างพื้นฐานดูเหมือนจะค่อนข้างเหมือนกัน แต่มีบางวิธีที่ชาญฉลาดในการติดตั้งและดูแลโครงสร้างพื้นฐานซึ่งมุ่งสู่ทิศทางของการสร้างแบบจำลอง AI โดยเฉพาะ
โดยทั่วไป พื้นที่จัดเก็บข้อมูลมักถูกมองข้ามไปเมื่อองค์กรกำลังสร้างโครงสร้างพื้นฐานสำหรับปริมาณงาน AI และคุณอาจไม่ได้รับ ROI ทั้งหมดในโครงสร้างพื้นฐาน AI ของคุณ หากการประมวลผลของคุณกำลังรอพื้นที่จัดเก็บของคุณให้ว่าง สิ่งสำคัญคือต้องค้นหาคำแนะนำที่ดีที่สุดสำหรับการปรับขนาดและปรับใช้ความละเอียดในการจัดเก็บข้อมูลที่เหมาะสมที่สุดสำหรับคลัสเตอร์ของคุณ
รายละเอียดขนาดใหญ่ไม่จำเป็นต้องใหญ่โตเสมอไป เพียงแต่เมื่อไปถึงตำแหน่งนั้นเมื่อส่งผลให้องค์กรไม่สามารถจัดการได้ เมื่อคุณไม่สามารถออกจากสิ่งที่คุณต้องการ มันก็ใหญ่เกินไปสำหรับคุณ HPC สามารถให้พลังงานในการประมวลผลเพื่อจัดการกับข้อมูลจำนวนมหาศาลในเวิร์กโหลด AI
อนาคตอันใกล้
เป็นเวลาที่น่าสนใจสำหรับ HPC และ AI อย่างเท่าเทียมกัน เนื่องจากเราเห็นการดัดแปลงที่เพิ่มขึ้นในแต่ละระบบ ความท้าทายมีมากขึ้นในแต่ละวันทำงานของแต่ละคนด้วยปัญหาล่าสุดและชัดเจนมากขึ้นซึ่งจำเป็นต้องมีการเยียวยาที่รวดเร็ว ในกรณีเช่น การตอบโต้การโจมตีทางไซเบอร์ การระบุวัคซีนใหม่ การตรวจจับขีปนาวุธของศัตรู และอื่นๆ
เป็นเรื่องที่น่าดึงดูดใจที่จะได้เห็นสิ่งที่เกิดขึ้นภายหลังในเงื่อนไขของการรวมสภาพแวดล้อมคอนเทนเนอร์ 100% บนคลัสเตอร์ HPC และเทคโนโลยีเหล่านี้เป็นสภาพแวดล้อม Singularity และ Kubernetes
ขณะนี้ผู้จัดกำหนดการเริ่มต้นอาชีพและอดทนจนกว่าพวกเขาจะสำเร็จในที่สุด ซึ่งไม่ใช่กรณีที่ดีสำหรับสภาพแวดล้อม AI นอกจากนี้ เมื่อเร็วๆ นี้ ตัวจัดกำหนดการที่ใหม่กว่าจะคอยดูประสิทธิภาพแบบเรียลไทม์และดำเนินการอาชีพตามลำดับความสำคัญและรันไทม์ และจะสามารถทำงานควบคู่ไปกับเทคโนโลยีคอนเทนเนอร์และสภาพแวดล้อมแบบเดียวกับ Kubernetes เพื่อจัดการทรัพยากรที่มีประโยชน์ที่จำเป็น
ที่เก็บข้อมูลจะกลายเป็นเรื่องที่สำคัญมากขึ้นเรื่อย ๆ เพื่อช่วยในการปรับใช้ขนาดใหญ่ เนื่องจากข้อเท็จจริงจำนวนมากต้องได้รับการจัดเก็บ ติดฉลาก ติดฉลาก ล้างข้อมูล และเคลื่อนย้ายไปรอบๆ อย่างทันท่วงที โครงสร้างพื้นฐาน เช่น แฟลชสตอเรจและเครือข่ายพัฒนาเป็นสิ่งที่สำคัญต่อความท้าทายของคุณ ร่วมกับซอฟต์แวร์คอมพิวเตอร์สตอเรจที่สามารถปรับขนาดได้ตามต้องการ
HPC และ AI ที่เท่าเทียมกันจะยังคงส่งผลกระทบต่อองค์กรที่เท่าเทียมกันและทุก ๆ องค์กรและความร่วมมือทางชีวภาพของพวกเขาจะพัฒนาให้แข็งแกร่งขึ้นเมื่อผู้ใช้ HPC ทั่วไปและผู้สร้างโมเดลโครงสร้างพื้นฐาน AI ทราบถึงความน่าจะเป็นทั้งหมด
วิบิน วิชัย ผู้เชี่ยวชาญด้านโซลูชั่น AI โอซีเอ ฟ