Rozwiązywanie zagadki wiedzy za pomocą HPC i AI
Opublikowany: 2021-12-15Superkomputer przebył długą drogę, biorąc pod uwagę jego początki w latach 60. XX wieku. Początkowo wiele superkomputerów koncentrowało się na komputerach typu mainframe, mimo to ich cena i złożoność stanowiły znaczące granice wejścia dla wielu przedsiębiorstw. Myśl o wykorzystaniu wielu bardzo tanich komputerów w społeczności, aby zaprezentować opłacalny rodzaj obliczeń równoległych, doprowadziła instytucje badawcze na ścieżkę klastrów o najwyższej wydajności (HPC) zakładanych z klastrami „Beowulf” w latach 90. .
Klastry Beowulf są w dużej mierze poprzednikami dzisiejszych klastrów HPC. Podstawy architektury Beowulf nadal mają zastosowanie do współczesnych, codziennych wdrożeń HPC, niemniej jednak wiele komputerów stacjonarnych zostało zmienionych za pomocą specjalnie stworzonych platform serwerowych o znacznej gęstości. Sieć znacznie się poprawiła, dzięki InfiniBand o wyższej przepustowości/zmniejszonym opóźnieniu (lub, jako ukłon w stronę przeszłości, coraz bardziej Ethernet) i równoległym systemom plików o wysokiej ogólnej wydajności, takie jak SpectrumScale, Luster i BeeGFS zostały zaprojektowane, aby umożliwić się z obliczeniami. Udoskonalenie doskonałego, często open-source, sprzętu do kontrolowania przetwarzania rozproszonego o najwyższej wydajności spowodowało, że przyjęcie go było znacznie mniej skomplikowane.
Dużo więcej, ostatnio byliśmy świadkami rozwoju HPC od autentycznych, zależnych od procesora klastrów do programów, które wykonują większość przetwarzania na graficznych modelach przetwarzania (GPU), co doprowadziło do rozwoju obliczeń akcelerowanych przez GPU.
Fakty i obliczenia – cel GPU
Chociaż HPC powiększało się dzięki dodatkowemu źródłu obliczeniowemu, informacje rozwijały się znacznie szybciej. Od początku 2010 r. nastąpił znaczny wzrost nieuporządkowanych informacji z zasobów, takich jak czaty internetowe, kamery, czujniki, komunikacja wideo online i tak dalej. Spowodowało to duże trudności w przechowywaniu, przetwarzaniu i przesyłaniu danych. Nowsze paradygmaty innowacji technologicznych, takie jak duże ilości danych, przetwarzanie równoległe, przetwarzanie w chmurze, sieć problemów (IoT) i sztuczna inteligencja (AI), weszły do głównego nurtu, aby poradzić sobie z problemami wywołanymi przez rzeź informacji.
To, co wszystkie te paradygmaty przeważają, to fakt, że są one obecnie w stanie być zrównoleglone w najwyższym stopniu. Równoległe przetwarzanie GPU przez HPC było rzeczywistym czynnikiem zmieniającym aktywność sztucznej inteligencji, ponieważ przetwarzanie równoległe może przetwarzać wszystkie te dane w ograniczonym czasie pracy z procesorami graficznymi. W miarę rozwoju obciążeń, obliczenia równoległe GPU i maszyny AI również się sprawdzają. Ocena wrażenia jest fantastycznym przykładem tego, jak moc elektryczna obliczeń GPU może wspomóc projekt AI. Z pojedynczym procesorem graficznym podejście do produktu do głębokiej analizy obrazu zajęłoby tylko 72 godziny, ale obsługa tego samego produktu AI w klastrze HPC z 64 procesorami graficznymi zajmie tylko 20 minut.
W jaki sposób HPC wspiera postęp AI?
Beowulf nadal jest powiązany z obciążeniami AI. Pamięć masowa, sieci i przetwarzanie mają kluczowe znaczenie dla wykonywania zadań AI na dużą skalę, w tym przypadku AI może korzystać z dużych, równoległych środowisk, które zapewnia infrastruktura HPC (z procesorami graficznymi), aby umożliwić szybkie wykonywanie zadań. Instruowanie produktu AI zajmuje znacznie więcej czasu niż testowanie pojedynczego produktu. Wartość sprzężenia AI z HPC polega na tym, że znacznie przyspiesza „etap treningu” oraz zwiększa dokładność i niezawodność projektów AI, nawet przy zachowaniu minimalnego czasu treningu.
Właściwa aplikacja ma wspierać mieszankę HPC i AI. Istnieją konwencjonalne produkty i cele, które są obecnie wykorzystywane do obsługi obciążeń AI tylko w środowiskach HPC, ponieważ wiele z nich ma te same potrzeby do agregowania znacznych puli środków i zarządzania nimi. Z drugiej strony, wszystko, od podstawowych komponentów, z których korzystali planiści, interfejsu przekazywania wiadomości (MPI), a nawet sposobu pakowania oprogramowania komputerowego, zaczyna się modyfikować w kierunku znacznie bardziej elastycznych stylów i wzrostu środowiska hybrydowe to rozwój, który zakładamy, że będziemy kontynuować.
Ponieważ powszechne warunki użytkowania programów HPC są doskonale sprawdzone, modyfikacje zwykle pojawiają się dość powoli, ale pewnie. Mimo to aktualizacje wielu aplikacji HPC są ważne tylko mniej więcej co 6 do 12 miesięcy. Z drugiej strony rozwój sztucznej inteligencji postępuje tak szybko, aktualizacje i nowe cele, sprzęt i biblioteki są publikowane z dnia na dzień.
Gdybyś wykorzystał tę samą taktykę aktualizacji do zarządzania swoją sztuczną inteligencją, co w przypadku platform HPC, zostałbyś z tyłu. Właśnie dlatego rozdzielczość taka jak kontenerowy system DGX firmy NVIDIA pozwala szybko i wygodnie zachować aktualność dzięki szybkim postępom z NVIDIA GPU CLOUD (NGC), internetowej bazy danych sprzętu AI i HPC zamkniętej w prostych do spożycia kontenerach.
W lokalnej społeczności HPC zaczyna być normalne stosowanie kontenerowego systemu do kontrolowania sytuacji, które są korzystne dla wdrażania sztucznej inteligencji. Konteneryzacja przyspieszyła wytyczne dotyczące obciążeń AI w klastrach HPC.
Dostarczanie z powrotem – w jaki sposób sztuczna inteligencja wspiera klasyczne problemy HPC?
Produkty AI mogą być wykorzystywane do przewidywania końcowego wyniku symulacji bez konieczności obsługi całej, wymagającej dużej ilości źródeł symulacji. Wykorzystując produkt AI w ten sposób, zmienne wejściowe / czynniki ciekawości układu można zawęzić do listy potencjalnych klientów natychmiast i przy znacznie niższych kosztach. Te potencjalne zmienne można uruchomić za pomocą uznanej symulacji, aby zweryfikować przewidywania modelu AI.
Quantum Molecular Simulations (QMS), Chip Structure i Drug Discovery to miejsca, w których ta procedura jest coraz częściej stosowana. IBM niedawno wypuścił także produkt, który to robi, znany jako IBM Bayesian Optimization Accelerator (BOA).
W jaki sposób integrator HPC może pomóc w infrastrukturze sztucznej inteligencji?
Zacznij od kilku prostych pytań. Jak duża jest moja trudność? Jak szybko chcę odzyskać moje wyniki? Ile mam wiedzy na temat zabiegu? Ile osób udostępnia ten przydatny zasób?
Procedury HPC umożliwią zarządzanie przedsiębiorstwem AI, jeśli istniejący zbiór danych jest znaczny lub jeśli w infrastrukturze pojawiają się obecnie wyzwania konkurencji związane z pozyskiwaniem różnych użytkowników. Jeśli masz problem, w którym będziesz musiał ustawić cztery procesory graficzne w stacji roboczej i pojawia się dylemat, powodując wąskie gardło, musisz skonsultować się z integratorem HPC, posiadającym wiedzę na temat skalowania infrastruktury dla tego rodzaju obciążenia.
Niektóre organizacje mogą obsługiwać obciążenia sztucznej inteligencji na ogromnym urządzeniu lub na kilku maszynach z procesorami graficznymi, a Twoja infrastruktura AI może wydawać się znacznie bardziej podobna do infrastruktury HPC, niż to sobie wyobrażasz. Istnieją podejścia, zastosowania i inne aspekty HPC, które zdecydowanie mogą wspierać regulację tej infrastruktury. Infrastruktura wydaje się być dość identyczna, ale istnieją pewne inteligentne sposoby wprowadzania i dbania o nią, ukierunkowane specjalnie na modelowanie AI.
Pamięć masowa jest na ogół pomijana, gdy organizacje tworzą infrastrukturę dla obciążeń AI, i prawdopodobnie nie uzyskasz całkowitego zwrotu z inwestycji w infrastrukturę AI, jeśli Twoje zasoby obliczeniowe czekają na zwolnienie pamięci. Ważne jest, aby poszukać najlepszych wskazówek dotyczących ustalania rozmiaru i wdrażania idealnej rozdzielczości magazynu dla klastra.
Duże detale nie zawsze muszą być aż tak ogromne, dopiero gdy osiąga tę pozycję, powoduje to, że organizacja jest nie do opanowania. Kiedy nie możesz wydostać się z tego, czego chcesz, to staje się dla ciebie zbyt duże. HPC może zapewnić energię obliczeniową, aby poradzić sobie z ogromnymi ilościami informacji w obciążeniach AI.
Przewidywalna przyszłość
To fascynujący czas zarówno dla HPC, jak i AI, ponieważ obserwujemy stopniową adaptację każdego systemu. Wyzwania są coraz większe każdego dnia pracy, z nowszymi i znacznie bardziej charakterystycznymi problemami, które wymagają szybszych rozwiązań. Na przykład przeciwdziałanie cyberatakom, identyfikowanie nowych szczepionek, wykrywanie wrogich pocisków i tak dalej.
Atrakcyjnie będzie zobaczyć, co dzieje się później w warunkach włączenia w 100% skonteneryzowanych środowisk do klastrów HPC oraz technologii takich jak środowiska Singularity i Kubernetes.
Harmonogramy inicjują teraz kariery i trzymają się, aż w końcu zostaną ukończone, co nie może być wielką okolicznością dla środowisk AI. Dodatkowo, ostatnio nowsi planiści obserwują efektywność w czasie rzeczywistym i realizują kariery w oparciu o pierwszeństwo i środowisko wykonawcze, a także będą w stanie działać wraz z technologiami i środowiskami konteneryzacji, takimi jak Kubernetes, aby zaaranżować potrzebne przydatne zasoby.
Pamięć masowa stanie się jeszcze bardziej krytyczna, aby wspomóc masowe wdrożenia, ponieważ ogromne ilości faktów muszą być przechowywane, oznaczane, etykietowane, czyszczone i szybko przenoszone. Infrastruktura, taka jak pamięć flash i sieć, staje się ważna dla Twojego wyzwania, wraz z oprogramowaniem komputerowym pamięci masowej, które można skalować w zależności od potrzeb.
W równym stopniu HPC i sztuczna inteligencja będą nadal miały wpływ na organizacje i na każdą inną, a ich symbiotyczne partnerstwo będzie się rozwijać tylko silniej, ponieważ równie powszechni użytkownicy HPC i twórcy infrastruktury sztucznej inteligencji będą znali całkowite prawdopodobieństwo każdego z nich.
Vibin Vijay, specjalista ds. rozwiązań AI, OCF