Lösung des Wissensrätsels mit HPC und KI
Veröffentlicht: 2021-12-15Supercomputing hat seit seinen Anfängen in den 1960er Jahren einen langen Weg zurückgelegt. Anfangs konzentrierten sich viele Supercomputer auf Mainframes, aber ihr Preis und ihre Komplexität waren für viele Unternehmen erhebliche Zugangsbeschränkungen. Der Gedanke, mehrere sehr kostengünstige PCs in einer Community zu verwenden, um eine kostengünstige Art von parallelem Computing zu präsentieren, führte in den 90er Jahren Forschungseinrichtungen auf den Weg von High-Effectiveness Computing (HPC)-Clustern, die sich mit „Beowulf“-Clustern gründeten .
Beowulf-Cluster sind weitgehend die Vorgänger der heutigen HPC-Cluster. Die Grundlagen der Beowulf-Architektur sind immer noch auf die heutigen HPC-Bereitstellungen im Arbeitsalltag anwendbar, dennoch wurden eine Reihe von Desktop-PCs durch speziell entwickelte Serverplattformen mit hoher Dichte ersetzt. Die Vernetzung hat sich merklich verbessert, mit InfiniBand mit höherer Bandbreite/reduzierter Latenz (oder, als Anspielung auf die Vergangenheit, zunehmend Ethernet) und hochleistungsfähigen parallelen Dateisystemen wie SpectrumScale, Lustre und BeeGFS, die so konzipiert wurden, dass der Speicher weiterhin erhalten bleibt rauf mit dem Rechner. Die Verbesserung exzellenter, oft Open-Source-Ausrüstung zur Steuerung von verteiltem Rechnen mit überlegener Effizienz hat auch die Einführung viel weniger kompliziert gemacht.
Erst kürzlich haben wir den Fortschritt von HPC von den authentischen, CPU-abhängigen Clustern zu Programmen miterlebt, die den Großteil ihrer Verarbeitung auf Grafikverarbeitungsmodellen (GPUs) erledigen, was zur Entwicklung von GPU-beschleunigtem Computing führte.
Fakten und Berechnung – Zweck der GPU
Obwohl HPC mit zusätzlichen Rechenquellen skaliert wurde, erweiterten sich die Informationen deutlich schneller. Seit Beginn des Jahres 2010 gab es eine erhebliche Explosion an unstrukturierten Informationen aus Ressourcen wie Webchats, Kameras, Sensoren, Online-Videokommunikation und so weiter. Dies hat zu Schwierigkeiten bei der Speicherung, Verarbeitung und Übertragung großer Datenmengen geführt. Neuere technologische Innovationsparadigmen wie Big Data, Parallel Computing, Cloud Computing, Net of Issues (IoT) und synthetische Intelligenz (KI) kamen in den Mainstream, um die Probleme zu bewältigen, die durch den Informationsansturm ausgelöst wurden.
Allen diesen Paradigmen ist gemeinsam, dass sie derzeit in höchstem Maße parallelisierbar sind. Das GPU-Parallel-Computing von HPC war ein echter Aktivitätsveränderer für die KI, da das Parallel-Computing all diese Daten in einem begrenzten Zeitvolumen verarbeiten kann, in dem es mit GPUs arbeitet. Mit der Entwicklung der Workloads haben auch GPU-Parallel-Computing und KI-Maschinen dies herausgefunden. Die Auswertung von Eindrücken ist ein fantastisches Beispiel dafür, wie die elektrische Leistung von GPU-Computing ein KI-Projekt unterstützen kann. Mit einer einzelnen GPU würde es nur 72 Stunden dauern, um sich einem Bildverarbeitungsprodukt zu nähern, aber es dauert nur 20 Minuten, um dasselbe KI-Produkt auf einem HPC-Cluster mit 64 GPUs zu betreiben.
Wie unterstützt HPC den KI-Fortschritt?
Beowulf ist immer noch mit KI-Workloads verbunden. Speicherung, Vernetzung und Verarbeitung sind entscheidend, um KI-Aufgaben in großem Maßstab auszuführen. In diesem Fall kann KI die groß angelegten, parallelen Umgebungen nutzen, die die HPC-Infrastruktur (mit GPUs) bietet, um Workloads mit Handlungsabläufen schnell zu ermöglichen. Die Anleitung eines KI-Produkts nimmt viel mehr Zeit in Anspruch als das Testen eines einzelnen. Der Wert der Kopplung von KI mit HPC besteht darin, dass sie die „Trainingsphase“ erheblich beschleunigt und die Genauigkeit und Zuverlässigkeit von KI-Designs steigert, obwohl die Trainingszeit auf ein Minimum reduziert wird.
Die entsprechende Anwendung soll die HPC- und KI-Mischung unterstützen. Es gibt herkömmliche Produkte und Zwecke, die derzeit verwendet werden, um KI-Workloads nur in HPC-Umgebungen zu betreiben, da viele die gleichen Anforderungen für die Aggregation umfangreicher Ressourcenpools und deren Verwaltung haben. Auf der anderen Seite beginnt sich alles, von den zugrunde liegenden Komponenten, den verwendeten Schedulern, Message Passing Interface (MPI) bis hin zur Paketierung von Computersoftware, in Richtung anpassungsfähigerer Stile zu ändern und zu steigern hybride Umgebungen ist eine Entwicklung, von der wir annehmen, dass sie sich fortsetzen wird.
Da die allgemeinen Nutzungsbedingungen für HPC-Programme so perfekt erprobt sind, kommen Änderungen normalerweise ziemlich langsam, aber sicher zustande. Trotzdem sind die Updates für viele HPC-Apps nur etwa alle 6 bis 12 Monate wichtig. Auf der anderen Seite schreitet die KI-Entwicklung so schnell voran, dass Updates und neue Zwecke, Geräte und Bibliotheken von Tag zu Tag veröffentlicht werden.
Wenn Sie zur Verwaltung Ihrer KI die gleiche Update-Taktik anwenden würden wie für Ihre HPC-Plattformen, würden Sie am Ende bleiben. Aus diesem Grund können Sie mit einer Auflösung wie dem DGX-Containersystem von NVIDIA schnell und bequem über die schnellen Entwicklungen von NVIDIA GPU CLOUD (NGC), einer Online-Datenbank mit KI- und HPC-Geräten, die in einfach zu essenden Containern gekapselt sind, auf dem Laufenden bleiben.
In der lokalen HPC-Community wird es allmählich üblich, ein containerisiertes System zur Steuerung von Situationen zu verwenden, die für den KI-Einsatz von Vorteil sind. Die Containerisierung hat die Anleitung für KI-Workloads auf HPC-Clustern beschleunigt.
Provisioning back – wie unterstützt KI klassische HPC-Störungen?
KI-Produkte können verwendet werden, um das Endergebnis einer Simulation vorherzusagen, ohne die gesamte, quellenintensive Simulation betreiben zu müssen. Durch die Verwendung eines KI-Produkts auf diese Weise können Eingabevariablen/Layoutfaktoren der Neugierde sofort und mit deutlich geringerem Aufwand auf eine Liste potenzieller Kunden eingegrenzt werden. Diese potenziellen Variablen können mithilfe der anerkannten Simulation ausgeführt werden, um die Vorhersage des KI-Modells zu validieren.
Quantum Molecular Simulations (QMS), Chip Structure und Drug Discovery sind Orte, an denen dieses Verfahren immer häufiger zum Einsatz kommt. IBM hat kürzlich auch ein Produkt herausgebracht, das genau dies tut, bekannt als IBM Bayesian Optimization Accelerator (BOA).
Wie kann ein HPC-Integrator bei Ihrer KI-Infrastruktur helfen?
Beginnen Sie mit ein paar einfachen Fragen. Wie groß ist mein Problem? Wie schnell möchte ich meine Ergebnisse wieder zurück? Wie viel Wissen muss ich zum Verfahren haben? Wie viele Menschen teilen sich die nützliche Ressource?
HPC-Verfahren werden die Verwaltung eines KI-Unternehmens ermöglichen, wenn der vorhandene Datensatz umfangreich ist oder wenn derzeit Wettbewerbsprobleme auf der Infrastruktur durch die Gewinnung verschiedener Benutzer auftreten. Wenn Sie ein Problem haben, bei dem Sie vier GPUs in einer Workstation einrichten müssen und dies durch das Auslösen eines Engpasses zu einem Problem wird, müssen Sie sich an einen HPC-Integrator wenden, der über Kenntnisse in der Skalierung der Infrastruktur für diese Art von Infrastruktur verfügt Arbeitsbelastung.
Einige Organisationen arbeiten möglicherweise mit KI-Workloads auf einem riesigen Gerät oder einer Reihe von Maschinen mit GPUs, und Ihre KI-Infrastruktur scheint viel mehr wie eine HPC-Infrastruktur zu sein, als Sie verstehen. Es gibt HPC-Ansätze, Anwendungen und andere Aspekte, die definitiv dazu beitragen können, diese Infrastruktur zu regulieren. Die Infrastruktur scheint ziemlich identisch zu sein, aber es gibt einige intelligente Möglichkeiten, sie einzurichten und zu pflegen, die speziell in Richtung KI-Modellierung ausgerichtet sind.
Speicher wird im Allgemeinen übersehen, wenn Unternehmen eine Infrastruktur für KI-Workloads erstellen, und Sie erzielen möglicherweise nicht den gesamten ROI Ihrer KI-Infrastruktur, wenn Ihr Computer darauf wartet, dass Ihr Speicher freigegeben wird. Es ist wichtig, nach der besten Anleitung für die Dimensionierung und Bereitstellung der idealen Speicherauflösung für Ihren Cluster zu suchen.
Große Details müssen nicht immer so massiv sein, erst wenn sie diese Position erreichen, werden sie für eine Organisation unüberschaubar. Wenn du nicht herausbekommst, was du willst, dann wird es zu groß für dich. HPC kann der Rechenleistung Energie geben, um mit den riesigen Mengen an Informationen in KI-Workloads fertig zu werden.
Die absehbare Zukunft
Es ist eine faszinierende Zeit für HPC und KI gleichermaßen, da wir eine inkrementelle Anpassung beider Systeme sehen. Die Herausforderungen werden jeden einzelnen Arbeitstag noch größer, mit neueren und deutlich ausgeprägteren Problemen, die schneller behoben werden müssen. Beispielsweise die Abwehr von Cyberangriffen, die Identifizierung neuer Impfstoffe, die Erkennung feindlicher Raketen und so weiter.
Es wird interessant sein zu sehen, was als nächstes in Bezug auf die Integration von 100 % containerisierten Umgebungen in HPC-Cluster und Technologien wie Singularity- und Kubernetes-Umgebungen passiert.
Planer leiten jetzt Karrieren ein und warten, bis sie schließlich abgeschlossen sind, was für KI-Umgebungen kein guter Umstand sein kann. In jüngerer Zeit beobachten neuere Planer die Echtzeiteffizienz und führen Karrieren basierend auf Priorität und Laufzeit durch und können mit Containerisierungstechnologien und -umgebungen wie Kubernetes zusammenarbeiten, um die erforderlichen Ressourcen zu orchestrieren.
Die Speicherung wird immer wichtiger, um massive Bereitstellungen zu unterstützen, da riesige Mengen an Fakten gespeichert, etikettiert, etikettiert, bereinigt und schnell überall hin und her bewegt werden müssen. Infrastrukturen wie Flash-Storage und Networking entwickeln sich zusammen mit Storage-Computersoftware, die je nach Bedarf skaliert werden kann, zu einer wichtigen Lösung für Ihre Herausforderung.
Gleichermaßen werden HPC und KI weiterhin Auswirkungen auf Organisationen und alle anderen haben, und ihre symbiotische Partnerschaft wird sich nur noch stärker entwickeln, da gleichermaßen häufige HPC-Benutzer und KI-Infrastrukturmodellierer die Gesamtwahrscheinlichkeit voneinander kennen.
Vibin Vijay, Spezialist für KI-Lösungen, OCF