Rezolvarea enigmei cunoștințelor cu HPC și AI
Publicat: 2021-12-15Supercalcularea a avut loc mult, având în vedere că începuturile sale în anii 1960. Inițial, multe supercomputere au ajuns să fie centrate pe mainframe, chiar și așa, prețul și complexitatea lor reprezentau limite semnificative de intrare pentru numeroase unități. Gândul de a utiliza un număr de PC-uri cu costuri foarte scăzute în jurul unei comunități pentru a prezenta un tip de calcul paralel eficient din punct de vedere al prețului a condus instituțiile de explorare pe calea clusterelor de calcul cu eficiență superioară (HPC) înființate cu clustere „Beowulf” în anii '90. .
Clusterele Beowulf sunt foarte mult predecesorii clusterelor HPC de astăzi. Fundamentele arhitecturii Beowulf sunt încă aplicabile implementărilor HPC de zi cu zi, cu toate acestea, o serie de PC-uri desktop au fost modificate cu platforme de server create special, cu densitate semnificativă. Rețeaua s-a îmbunătățit considerabil, cu o lățime de bandă mai mare/latență redusă InfiniBand (sau, ca un semn din cap către trecut, din ce în ce mai mult Ethernet) și sisteme de fișiere paralele de înaltă performanță generală, cum ar fi SpectrumScale, Luster și BeeGFS, au fost concepute pentru a permite stocării să continue să se păstreze. cu calculul. Îmbunătățirea echipamentelor excelente, adesea open-source, pentru controlul calculatoarelor dispersate cu eficiență superioară, a făcut, de asemenea, adoptarea mult mai puțin complicată.
Mai mult decât în ultimul timp, am asistat la avansarea HPC de la clustere autentice, dependente de CPU, la programe care fac cea mai mare parte a procesării lor pe modele de procesare grafică (GPU), rezultând în dezvoltarea calculului accelerat GPU.
Fapte și calcul – scopul GPU-ului
Deși HPC creștea cu o sursă de calcul suplimentară, informațiile se extindeau cu o viteză semnificativ mai rapidă. Deoarece la începutul anului 2010, a avut loc o explozie substanțială a informațiilor nestructurate din resurse precum chat-uri web, camere, senzori, comunicații video online și așa mai departe. Acest lucru a introdus dificultăți mari de stocare, procesare și transfer de date. Mai recente paradigme de inovare tehnologică, cum ar fi datele mari, calculul paralel, cloud computing, Net of Issues (IoT) și inteligența sintetică (AI) au ajuns în curentul principal pentru a face față problemelor declanșate de atacul informațional.
Ceea ce predomină toate aceste paradigme este că ele pot fi paralelizate în prezent într-un grad superior. Calculul paralel GPU de la HPC a fost un adevărat schimbător de activitate pentru AI, deoarece calculul paralel poate metoda toate aceste date, într-un volum limitat de timp, lucrând cu GPU-uri. Pe măsură ce s-au dezvoltat sarcinile de lucru, la fel au descoperit și calculul paralel GPU și mașina AI. Evaluarea impresiilor este un exemplu fantastic al modului în care puterea electrică a calculului GPU poate ajuta un proiect AI. Cu un singur GPU, ar dura doar 72 de ore pentru a aborda un produs de studiu profund de imagistică, dar va dura doar 20 de minute pentru a opera același produs AI pe un cluster HPC cu 64 de GPU.
Cum sprijină HPC progresul AI?
Beowulf este încă legat de sarcinile de lucru AI. Stocarea, conectarea în rețea și procesarea sunt cruciale pentru ca sarcinile AI să funcționeze la scară, atunci când AI poate folosi mediile paralele pe scară largă pe care le oferă infrastructura HPC (cu GPU-uri) pentru a permite sarcinile de lucru rapide. Instruirea unui produs AI necesită mult mai mult, mult mai mult timp decât testarea unui singur. Valoarea cuplării AI cu HPC este că accelerează considerabil „etapa de antrenament” și mărește acuratețea și fiabilitatea designurilor AI, deși menținând timpul de antrenament la un nivel minim.
Se dorește aplicația adecvată pentru a sprijini combinația HPC și AI. Există produse și scopuri convenționale care sunt utilizate în prezent pentru a opera sarcinile de lucru AI din doar medii HPC, deoarece multe au aceleași necesități pentru agregarea unor grupuri substanțiale de mijloace și gestionarea acestora. Pe de altă parte, totul, de la componentele de bază, planificatorii de care au folosit, interfața de transmitere a mesajelor (MPI) și chiar și până la modul în care este împachetat software-ul de calculator, începe să se modifice în direcția unor stiluri mult mai adaptabile și o creștere a mediile hibride este o dezvoltare pe care presupunem că o vom continua.
Deoarece condițiile comune de utilizare pentru programele HPC sunt atât de perfect dovedite, modificările se materializează de obicei destul de lent, dar sigur. Chiar și așa, actualizările pentru o mulțime de aplicații HPC sunt importante doar la fiecare 6 până la 12 luni. Pe de altă parte, progresul AI are loc atât de rapid, actualizările și scopurile noi, echipamentele și bibliotecile rămân lansate zi de zi.
Dacă ați folosi aceleași tactici de actualizare pentru a vă gestiona AI ca și pentru platformele HPC, veți rămâne în spatele. Acesta este motivul pentru care o rezoluție precum sistemul containerizat DGX de la NVIDIA vă permite să păstrați rapid și convenabil până la zi cu evoluțiile rapide de la NVIDIA GPU CLOUD (NGC), și bazele de date web ale echipamentelor AI și HPC încapsulate în containere ușor de consumat.
Începe să fie normal să se aplice în comunitatea locală HPC să folosească un sistem containerizat pentru a controla ocaziile care sunt avantajoase pentru implementarea AI. Containerizarea a accelerat îndrumarea pentru sarcinile de lucru AI pe clusterele HPC.
Furnizarea înapoi – cum suportă AI problemele clasice HPC?
Produsele AI pot fi utilizate pentru a prezice rezultatul final al unei simulări fără a deține operarea întregii simulări, cu sursă intensivă. Prin utilizarea unui produs AI în acest fel, variabilele de intrare/factorii de aspect de curiozitate pot fi restrânși la o listă de potențiali imediat și cu cheltuieli semnificativ mai mici. Aceste variabile perspective pot fi rulate prin intermediul simulării recunoscute pentru a valida predicția modelului AI.
Simulările moleculare cuantice (QMS), structura cipului și descoperirea medicamentelor sunt locuri în care această procedură devine din ce în ce mai utilizată, de asemenea, IBM a lansat recent un articol care face acest lucru, cunoscut sub numele de IBM Bayesian Optimization Accelerator (BOA).
Cum vă poate ajuta un integrator HPC cu infrastructura dvs. AI?
Începeți cu câteva întrebări simple Cât de mare este dificultatea mea? Cât de rapid îmi doresc rezultatele înapoi? Cât de semnificative de cunoștințe trebuie să procedez? Câți oameni împărtășesc resursa utilă?
Procedurile HPC vor permite gestionarea unei întreprinderi de IA dacă setul de date existent este substanțial sau dacă în prezent se confruntă provocări de concurență în infrastructură de la obținerea diverșilor utilizatori. Dacă vă aflați într-o problemă în care va trebui să setați patru GPU-uri într-o stație de lucru și aceasta devine o dilemă prin declanșarea unui blocaj, trebuie să vă consultați cu un integrator HPC, cu cunoștințe în extinderea infrastructurii pentru aceste tipuri de sarcinile de lucru.
Unele organizații ar putea funcționa cu sarcini de lucru AI pe un dispozitiv masiv sau pe mai multe mașini cu GPU, iar infrastructura dvs. AI poate părea mult mai mult ca infrastructura HPC decât înțelegeți. Există abordări HPC, aplicații și alte aspecte care pot sprijini cu siguranță reglementarea acelei infrastructuri. Infrastructura pare să fie destul de identică, dar există câteva modalități inteligente de a pune și de a îngriji ea, orientate special în direcția modelării AI.
Stocarea este în general trecută cu vederea atunci când organizațiile creează infrastructură pentru sarcinile de lucru AI și este posibil să nu obțineți rentabilitatea totală a infrastructurii dvs. AI dacă computerul așteaptă ca spațiul de stocare să fie eliberat. Este important să căutați cele mai bune îndrumări pentru dimensionarea și implementarea rezoluției de stocare ideală pentru clusterul dvs.
Detaliile mari nu trebuie să fie întotdeauna atât de masive, ci doar atunci când ajunge la acea poziție, când rezultă că sunt de negestionat pentru o organizație. Când nu poți scoate din ea ceea ce îți dorești, atunci devine prea mare pentru tine. HPC poate oferi energie de calcul pentru a face față cantităților masive de informații din sarcinile de lucru AI.
Viitorul previzibil
Este o perioadă fascinantă atât pentru HPC cât și pentru AI, deoarece vedem o adaptare progresivă a fiecărui sistem. Provocările sunt și mai mari în fiecare zi de lucru individuală, cu probleme mai recente și mult mai distinctive care trebuie să aibă remedii mai rapide. De exemplu, contracararea atacurilor cibernetice, identificarea de noi vaccinuri, detectarea rachetelor inamice și așa mai departe.
Va fi atrăgător să vedem ce se întâmplă ulterior în condițiile includerii unor medii 100% containerizate în clusterele HPC și tehnologii precum mediile Singularity și Kubernetes.
Programatorii inițiază acum cariere și rezistă până când în cele din urmă termină, ceea ce nu ar putea fi o circumstanță grozavă pentru mediile AI. În plus, recent, programatorii mai recenți urmăresc eficiența în timp real și execută cariere bazate pe precedență și timp de execuție și vor fi capabili să opereze împreună cu tehnologiile și mediile de containerizare, cum ar fi Kubernetes, pentru a orchestra resursele utile necesare.
Stocarea se va deveni din ce în ce mai critică pentru a ajuta implementările masive, deoarece volume mari de fapte trebuie să fie stocate, etichetate, etichetate, curățate și mutate imediat. Infrastructura, cum ar fi stocarea flash și rețelele, devin importante pentru provocarea dvs., împreună cu software-ul pentru computer de stocare care se poate scala în funcție de nevoi.
În egală măsură, HPC și AI vor continua să aibă un impact în mod egal asupra organizațiilor și asupra tuturor celorlalte, iar parteneriatul lor simbiotic se va dezvolta doar mai puternic, pe măsură ce utilizatorii HPC și modelatorii de infrastructură AI cunosc probabilitatea totală a tuturor celorlalți.
Vibin Vijay, specialist în soluții AI, OCF