Risolvere l'enigma della conoscenza con HPC e AI
Pubblicato: 2021-12-15Il supercalcolo ha fatto molta strada considerando che i suoi inizi negli anni '60. Inizialmente, molti supercomputer sono finiti incentrati sui mainframe, anche se il loro prezzo e la loro complessità erano limiti significativi all'ingresso per numerosi stabilimenti. L'idea di utilizzare un certo numero di PC a bassissimo costo in una comunità per presentare un tipo di calcolo parallelo conveniente in termini di prezzo ha portato le istituzioni di esplorazione lungo il percorso di cluster HPC (Higher-Efficacia Computing) che si sono creati con cluster "Beowulf" negli anni '90 .
I cluster Beowulf sono in gran parte i predecessori degli odierni cluster HPC. I fondamenti dell'architettura Beowulf sono ancora applicabili alle odierne implementazioni HPC, tuttavia, numerosi PC desktop sono stati modificati con piattaforme server a densità significativa create appositamente. Il networking è notevolmente migliorato, con InfiniBand a larghezza di banda più elevata/latenza ridotta (o, come un cenno al passato, sempre più Ethernet) e filesystem paralleli ad alte prestazioni generali, come SpectrumScale, Lustre e BeeGFS sono stati progettati per consentire allo storage di continuare a mantenere al passo con il calcolo. Anche il miglioramento di apparecchiature eccellenti, spesso open source, per il controllo dell'elaborazione dispersa di efficienza superiore ha reso l'adozione molto meno complicata.
Molto più recentemente, abbiamo assistito al progresso dell'HPC dai cluster autentici dipendenti dalla CPU a programmi che eseguono la maggior parte della loro elaborazione su modelli di elaborazione grafica (GPU), con conseguente sviluppo dell'elaborazione con accelerazione GPU.
Fatti e calcolo: lo scopo della GPU
Sebbene l'HPC stesse aumentando con una fonte di calcolo aggiuntiva, le informazioni si stavano espandendo a una velocità significativamente maggiore. A causa dell'inizio del 2010, c'è stata una sostanziale esplosione di informazioni non strutturate provenienti da risorse come chat web, fotocamere, sensori, comunicazioni video online e così via. Ciò ha introdotto grandi difficoltà di archiviazione, elaborazione e trasferimento dei dati. Paradigmi di innovazione tecnologica più recenti come dati di grandi dimensioni, calcolo parallelo, cloud computing, Net of Issues (IoT) e intelligenza sintetica (AI) sono arrivati nel mainstream per far fronte ai problemi innescati dall'assalto di informazioni.
Ciò che tutti questi paradigmi hanno in prevalenza è che sono attualmente in grado di essere parallelizzati a un livello superiore. Il calcolo parallelo GPU di HPC è stato un vero e proprio cambiamento di attività per l'IA poiché il calcolo parallelo può elaborare tutti questi dati, in un volume di tempo limitato lavorando con le GPU. Con lo sviluppo dei carichi di lavoro, anche il calcolo parallelo della GPU e la scoperta delle macchine IA. La valutazione delle impressioni è un fantastico esempio di come la potenza elettrica del GPU computing può aiutare un progetto di intelligenza artificiale. Con una singola GPU ci vorrebbero solo 72 ore per avvicinarsi a un prodotto per lo studio approfondito dell'imaging, ma ci vorranno solo 20 minuti per far funzionare lo stesso prodotto AI su un cluster HPC con 64 GPU.
In che modo HPC supporta il progresso dell'IA?
Beowulf è ancora correlato ai carichi di lavoro dell'IA. Lo storage, il networking e l'elaborazione sono fondamentali per far funzionare le attività di intelligenza artificiale su larga scala, questo è quando l'IA può utilizzare gli ambienti paralleli su larga scala offerti dall'infrastruttura HPC (con GPU) per abilitare rapidamente i carichi di lavoro del corso dell'azione. L'istruzione di un prodotto di intelligenza artificiale richiede molto più tempo rispetto a un singolo test. Il vantaggio dell'accoppiamento dell'IA con l'HPC è che accelera notevolmente la "fase di addestramento" e aumenta l'accuratezza e l'affidabilità dei progetti di IA, pur mantenendo il tempo di addestramento al minimo.
Si desidera che l'applicazione appropriata supporti la miscela HPC e AI. Esistono prodotti e scopi convenzionali che vengono attualmente impiegati per gestire carichi di lavoro di intelligenza artificiale da soli ambienti HPC, poiché numerosi condividono le stesse necessità per aggregare sostanziali pool di mezzi e gestirli. D'altra parte, tutto, dai componenti sottostanti, agli scheduler utilizzati, all'interfaccia di passaggio dei messaggi (MPI) e persino al modo in cui il software del computer è impacchettato, sta iniziando a modificare nella direzione di stili molto più adattabili e un aumento di gli ambienti ibridi sono uno sviluppo che presumiamo continuerà.
Poiché le condizioni di utilizzo comuni per i programmi HPC sono così perfettamente comprovate, le modifiche di solito si materializzano in modo abbastanza lento ma inesorabile. Anche così, gli aggiornamenti per molte app HPC sono importanti solo ogni 6-12 mesi circa. D'altra parte, il progresso dell'IA sta avvenendo così rapidamente, gli aggiornamenti e i nuovi scopi, le attrezzature e le librerie rimangono disponibili giorno dopo giorno.
Se utilizzassi le stesse tattiche di aggiornamento per gestire la tua IA come fai per le tue piattaforme HPC, verrai lasciato in fondo. Questo è il motivo per cui una risoluzione come il sistema containerizzato DGX di NVIDIA ti consente di mantenere rapidamente e comodamente le informazioni aggiornate con i rapidi sviluppi di NVIDIA GPU CLOUD (NGC), un database sul Web di apparecchiature AI e HPC incapsulate in contenitori semplici da mangiare.
Sta iniziando a essere normale nella comunità locale HPC utilizzare un sistema containerizzato per controllare le occasioni vantaggiose per l'implementazione dell'IA. La containerizzazione ha accelerato le indicazioni per i carichi di lavoro di intelligenza artificiale sui cluster HPC.
Fornire indietro: in che modo l'IA supporta i classici problemi dell'HPC?
I prodotti di intelligenza artificiale possono essere utilizzati per prevedere il risultato finale di una simulazione senza dover gestire l'intera simulazione, ad alta intensità di fonti. Utilizzando un prodotto AI in questo modo le variabili di input/i fattori di curiosità del layout possono essere ridotti a un elenco di potenziali clienti immediatamente e con una spesa significativamente inferiore. Queste variabili prospect possono essere eseguite tramite la simulazione riconosciuta per convalidare la previsione del modello AI.
Le simulazioni molecolari quantistiche (QMS), la struttura del chip e la scoperta di farmaci sono luoghi in cui questa procedura viene sempre più utilizzata, IBM ha anche recentemente rilasciato un elemento che fa specificamente questo noto come IBM Bayesian Optimization Accelerator (BOA).
In che modo un integratore HPC può aiutarti con la tua infrastruttura AI?
Inizia con un paio di semplici domande. Quanto è grande la mia difficoltà? Quanto velocemente voglio che i miei risultati tornino di nuovo? Quanta conoscenza ho per la procedura? Quante persone condividono la risorsa utile?
Le procedure HPC consentiranno la gestione di un'impresa di IA se il set di dati esistente è sostanziale o se sono attualmente in corso sfide di concorrenza sull'infrastruttura per ottenere vari utenti. Se si verifica un problema in cui è necessario impostare quattro GPU in una workstation e questo crea un dilemma innescando un collo di bottiglia, è necessario consultare un integratore HPC, con conoscenze nell'espansione dell'infrastruttura per questo tipo di carichi di lavoro.
Alcune organizzazioni potrebbero utilizzare carichi di lavoro di intelligenza artificiale su un dispositivo enorme o un numero di macchine con GPU e la tua infrastruttura di intelligenza artificiale potrebbe sembrare molto più simile a un'infrastruttura HPC di quanto tu possa comprendere. Esistono approcci HPC, applicazioni e altri aspetti che possono sicuramente supportare la regolazione di tale infrastruttura. L'infrastruttura sembra essere abbastanza identica, ma ci sono alcuni modi intelligenti per installarla e prendersene cura specificamente orientati nella direzione della modellazione AI.
Lo storage è generalmente trascurato quando le organizzazioni creano infrastrutture per carichi di lavoro di intelligenza artificiale e potresti non acquisire il ROI totale sulla tua infrastruttura di intelligenza artificiale se il tuo calcolo è in attesa che lo spazio di archiviazione venga liberato. È importante cercare le indicazioni migliori per il dimensionamento e la distribuzione della risoluzione di archiviazione ideale per il tuo cluster.
I dettagli di grandi dimensioni non devono sempre essere così enormi, è proprio quando raggiungono quella posizione che risulta ingestibile per un'organizzazione. Quando non puoi farne quello che vuoi, allora diventa troppo grande per te. L'HPC può fornire l'energia di calcolo per gestire le enormi quantità di informazioni nei carichi di lavoro dell'IA.
Il prossimo futuro
È un momento affascinante per HPC e IA allo stesso modo, poiché stiamo assistendo all'adattamento incrementale di ciascun sistema. Le sfide stanno diventando sempre più grandi ogni singola giornata lavorativa, con problemi più recenti e molto più distintivi che devono avere rimedi più rapidi. Ad esempio, contrastare gli attacchi informatici, identificare nuovi vaccini, rilevare missili nemici e così via.
Sarà interessante vedere cosa accadrà successivamente nelle condizioni di inclusione di ambienti containerizzati al 100% nei cluster HPC e nelle tecnologie come ambienti Singularity e Kubernetes.
I pianificatori ora iniziano le carriere e resistono fino al completamento, il che non potrebbe essere una grande circostanza per gli ambienti di intelligenza artificiale. Inoltre, gli scheduler più recenti osservano l'efficacia in tempo reale ed eseguono carriere in base alla precedenza e al runtime e saranno in grado di operare insieme a tecnologie e ambienti di containerizzazione come Kubernetes per orchestrare la risorsa utile richiesta.
L'archiviazione diventerà sempre più fondamentale per favorire distribuzioni massicce, poiché enormi volumi di fatti devono essere archiviati, etichettati, etichettati, ripuliti e spostati prontamente dappertutto. Infrastrutture come l'archiviazione flash e le reti diventano importanti per la tua sfida, insieme a software per computer di archiviazione in grado di adattarsi alle esigenze.
Allo stesso modo, HPC e IA continueranno ad avere un impatto su organizzazioni allo stesso modo e su ogni altra e la loro partnership simbiotica si svilupperà solo più forte man mano che utenti HPC e modellatori di infrastrutture di intelligenza artificiale ugualmente comuni conoscono il totale probabile l'uno dell'altro.
Vibin Vijay, specialista in soluzioni di intelligenza artificiale, OCF