HPC ve AI ile bilgi bilmecesini düzeltme
Yayınlanan: 2021-12-15Süper hesaplama, 1960'larda başladığı düşünüldüğünde uzun bir yol kat etti. Başlangıçta, birçok süper bilgisayar ana bilgisayarlara odaklandı, buna rağmen fiyat etiketleri ve karmaşıklıkları çok sayıda kuruluş için giriş için önemli sınırlar oluşturuyordu. 90'larda "Beowulf" kümeleri ile kurulan üstün etkili bilgi işlem (HPC) kümeleri yolunda, fiyat açısından verimli bir paralel bilgi işlem türü sunmak için bir topluluk etrafında çok düşük maliyetli bir dizi PC kullanma düşüncesi, keşif kurumlarını yönlendirdi. .
Beowulf kümeleri, günümüzün HPC kümelerinin öncülleridir. Beowulf mimarisinin temelleri, günümüzün HPC dağıtımları için hala geçerlidir, bununla birlikte, bir dizi masaüstü PC, amaca yönelik oluşturulmuş, önemli yoğunluklu sunucu platformları ile değiştirilmiştir. Daha Yüksek Bant Genişliği/Azaltılmış Gecikme Süresi InfiniBand (veya geçmişe bir gönderme olarak, giderek artan şekilde Ethernet) ve SpectrumScale, Lustre ve BeeGFS gibi yüksek genel performanslı paralel dosya sistemleriyle, ağ iletişimi gözle görülür şekilde geliştirildi, depolamanın devam etmesini sağlamak için tasarlandı hesaplama ile yukarı. Üstün verimliliğe sahip dağınık hesaplamayı kontrol etmek için mükemmel, genellikle açık kaynaklı ekipmanın geliştirilmesi, benimsemeyi çok daha az karmaşık hale getirdi.
Çok daha yakın bir zamanda, HPC'nin gerçek, CPU'ya bağlı kümelerden, işlemlerinin çoğunu Grafik İşleme Modelleri (GPU'lar) üzerinde yapan programlara doğru ilerlemesine tanık olduk ve bu da GPU hızlandırmalı hesaplamanın geliştirilmesine yol açtı.
Gerçekler ve Hesaplama – GPU'nun amacı
HPC, ek bilgi işlem kaynağıyla ölçekleniyor olsa da, bilgiler önemli ölçüde daha hızlı bir şekilde genişliyordu. 2010 yılının başlangıcından bu yana, web sohbetleri, kameralar, sensörler, çevrimiçi video iletişimleri vb. kaynaklardan gelen yapılandırılmamış bilgilerde önemli bir patlama oldu. Bu, depolama, işleme ve aktarım için büyük veri zorluklarını beraberinde getirdi. Büyük veri, paralel bilgi işlem, bulut bilişim, Sorunlar Ağı (IoT) ve sentetik zeka (AI) gibi daha yeni teknolojik yenilik paradigmaları, bilgi saldırısının tetiklediği sorunlarla başa çıkmak için ana akım haline geldi.
Bu paradigmaların hepsinde hakim olan şey, şu anda üstün bir derecede paralel hale getirilebilmeleridir. HPC'nin GPU paralel hesaplaması, paralel hesaplama GPU'larla çalışarak sınırlı bir süre içinde tüm bu verileri hesaplayabildiğinden, AI için gerçek bir etkinlik değiştirici olmuştur. İş yükleri geliştikçe, GPU paralel hesaplama ve yapay zeka makinesinin de keşfetmesi var. İzlenim değerlendirmesi, GPU hesaplamanın elektrik gücünün bir AI projesine nasıl yardımcı olabileceğinin harika bir örneğidir. Tek bir GPU ile bir görüntüleme derin çalışma ürününe yaklaşmak yalnızca 72 saat sürer, ancak aynı AI ürününü 64 GPU'lu bir HPC kümesinde çalıştırmak yalnızca 20 dakika sürer.
HPC, AI ilerlemesini nasıl destekliyor?
Beowulf hala AI iş yükleriyle ilgilidir. Depolama, ağ oluşturma ve işleme, AI görevlerinin uygun ölçekte gerçekleştirilmesi için çok önemlidir; işte bu, AI'nın, eylem akışı iş yüklerini hızlı bir şekilde etkinleştirmek için HPC altyapısının (GPU'larla) sağladığı büyük ölçekli, paralel ortamlardan yararlanabileceği zamandır. Bir AI ürününün talimatı, tek bir ürünü test etmekten çok daha fazla zaman alır. AI ile HPC'yi birleştirmenin değeri, eğitim süresini minimumda tutsa bile, 'eğitim aşamasını' önemli ölçüde hızlandırması ve AI tasarımlarının doğruluğunu ve güvenilirliğini artırmasıdır.
Uygun uygulamanın HPC ve AI karışımını desteklemesi istenmektedir. Sayısı önemli araç havuzlarını bir araya getirmek ve bunları yönetmek için aynı gereksinimleri paylaştığından, yapay zeka iş yüklerini yalnızca HPC ortamlarından çalıştırmak için şu anda kullanılan geleneksel ürünler ve amaçlar vardır. Öte yandan, temel bileşenlerden, kullanılan zamanlayıcılardan, Mesaj Geçiş Arayüzü (MPI) ve hatta bilgisayar yazılımının nasıl paketlendiğine kadar her şey, çok daha uyarlanabilir stiller yönünde değişmeye başlıyor ve bir rize. hibrit ortamlar, devam ettiğini varsaydığımız bir gelişmedir.
HPC programları için ortak kullanım koşulları mükemmel bir şekilde kanıtlandığından, değişiklikler genellikle oldukça yavaş ama emin bir şekilde gerçekleşir. Öyle olsa bile, birçok HPC uygulamasının güncellemeleri yalnızca yaklaşık her 6 ila 12 ayda bir önemlidir. Öte yandan, AI gelişimi o kadar hızlı oluyor ki, güncellemeler ve yeni amaçlar, ekipman ve kütüphaneler her geçen gün piyasaya sürülmeye devam ediyor.
AI'nızı yönetmek için HPC platformlarınız için kullandığınızla aynı güncelleme taktiklerini kullandıysanız, geride kalırsınız. Bu nedenle, NVIDIA'nın DGX kapsayıcı sistemi gibi bir çözüm, yemesi kolay kaplarda kapsanan AI ve HPC ekipmanının web veritabanlarındaki NVIDIA GPU CLOUD'dan (NGC) gelen hızlı gelişmelerle hızlı ve kolay bir şekilde günümüze kadar gelmenizi sağlar.
AI dağıtımı için avantajlı olan durumları kontrol etmek için kapsayıcılı bir sistem kullanmak, HPC yerel topluluğunda normal bir uygulama olmaya başlıyor. Konteynerleştirme, HPC kümelerindeki yapay zeka iş yükleri için hızlandırılmış rehberliğe sahiptir.
Geri sağlama – AI, klasik HPC sorunlarını nasıl destekliyor?
Yapay zeka ürünleri, kaynak yoğun simülasyonun tamamını çalıştırmadan bir simülasyonun nihai sonucunu tahmin etmek için kullanılabilir. Bir AI ürününü bu şekilde kullanarak, girdi değişkenleri/düzen faktörleri, hemen ve önemli ölçüde daha düşük maliyetle bir potansiyel müşteri listesine daraltılabilir. Bu olası değişkenler, AI modelinin tahminini doğrulamak için onaylanmış simülasyon yoluyla çalıştırılabilir.
Kuantum Moleküler Simülasyonlar (QMS), Çip Yapısı ve İlaç Keşfi, bu prosedürün giderek daha fazla kullanılmaya başlandığı yerlerdir, IBM ayrıca yakın zamanda, özellikle bunu yapan ve IBM Bayesian Optimization Accelerator (BOA) olarak bilinen bir öğeyi yayınladı.
Bir HPC entegratörü AI altyapınıza nasıl yardımcı olabilir?
Birkaç basit sorguyla başlayın Zorluğum ne kadar büyük? Sonuçlarımın ne kadar hızlı geri gelmesini istiyorum? Prosedür için ne kadar önemli bir bilgiye sahibim? Yararlı kaynağı kaç kişi paylaşıyor?
HPC prosedürleri, mevcut veri kümesi önemliyse veya altyapıda çeşitli kullanıcılardan kaynaklanan rekabet zorlukları yaşanıyorsa, bir AI girişiminin yönetimini sağlayacaktır. Bir iş istasyonunda dört GPU ayarlamanız gereken bir sorunla karşı karşıyaysanız ve bu bir darboğaz tetikleyerek bir ikilem alıyorsa, bu tür işlemler için altyapıyı büyütme konusunda bilgili bir HPC entegratörüne danışmanız gerekir. iş yükleri.
Bazı kuruluşlar, AI iş yüklerini çok büyük bir cihazda veya GPU'lu birkaç makinede çalıştırıyor olabilir ve AI altyapınız, anladığınızdan çok daha fazla HPC altyapısı gibi görünebilir. Bu altyapının düzenlenmesini kesinlikle destekleyebilecek HPC yaklaşımları, uygulaması ve diğer yönler vardır. Altyapı oldukça aynı görünüyor, ancak özellikle AI modellemesi yönünde tasarlanmış, onu yerleştirmenin ve onunla ilgilenmenin bazı akıllı yolları var.
Kuruluşlar AI iş yükleri için altyapı oluştururken depolama genellikle göz ardı edilir ve bilgi işlem, depolama alanınızın serbest bırakılmasını bekliyorsa, AI altyapınızın toplam yatırım getirisini elde edemeyebilirsiniz. Kümeniz için ideal depolama çözünürlüğünü boyutlandırmak ve dağıtmak için en büyük kılavuzu aramak önemlidir.
Büyük detayların her zaman bu kadar büyük olması gerekmez, sadece o konuma ulaştığında bir organizasyon için yönetilemez hale gelir. İçinden istediğini çıkaramadığında, o zaman senin için çok büyük olur. HPC, yapay zeka iş yüklerindeki devasa miktardaki bilgiyle başa çıkmak için bilgi işlem enerjisini verebilir.
Öngörülebilir gelecek
Her sistem tarafından artan adaptasyon gördüğümüz için, HPC ve AI için eşit derecede büyüleyici bir zaman. Zorluklar, daha hızlı çözümlere ihtiyaç duyan daha yeni ve çok daha belirgin sorunlarla birlikte, her bir çalışma gününde daha da büyüyor. Örnek olarak, siber saldırılara karşı koymak, yeni aşılar belirlemek, düşman füzelerini tespit etmek vb.
HPC kümelerine %100 kapsayıcı ortamların dahil edilmesi ve bunları Singularity ve Kubernetes ortamları olarak teknolojilerin dahil edilmesi koşullarında daha sonra neler olduğunu görmek çekici olacaktır.
Zamanlayıcılar artık kariyerleri başlatıyor ve sonunda tamamlanana kadar beklemeye devam ediyor, bu da AI ortamları için harika bir durum olamaz. Yakın zamanda ek olarak, daha yeni planlayıcılar gerçek zamanlı etkinliği izliyor ve öncelik ve çalışma zamanına dayalı kariyer yürütüyor ve gerekli faydalı kaynağı düzenlemek için Kubernet'ler gibi konteynerleştirme teknolojileri ve ortamlarıyla birlikte çalışabilecek.
Büyük hacimli gerçeklerin derhal depolanması, etiketlenmesi, etiketlenmesi, temizlenmesi ve her yere taşınması gerektiğinden, depolama, büyük dağıtımlara yardımcı olmak için her zamankinden daha kritik hale gelecektir. Flaş depolama ve ağ oluşturma gibi altyapı, ihtiyaca göre ölçeklenebilen depolama bilgisayar yazılımıyla birlikte, karşılaştığınız zorluk için önemli hale gelir.
HPC ve AI eşit olarak kuruluşlar ve her biri üzerinde bir etkiye sahip olmaya devam edecek ve simbiyotik ortaklıkları yalnızca eşit derecede yaygın HPC kullanıcıları ve AI altyapı modelleyicileri birbirlerinin toplam olasılığını bildiği için daha güçlü gelişecektir.
Vibin Vijay, Yapay Zeka Çözüm Uzmanı, OCF