Memperbaiki teka-teki pengetahuan dengan HPC dan AI
Diterbitkan: 2021-12-15Superkomputer telah terjadi sejak lama mengingat dimulai pada tahun 1960-an. Awalnya, banyak superkomputer berakhir dengan fokus pada mainframe, namun harga dan kompleksitasnya menjadi batasan signifikan untuk masuk ke banyak perusahaan. Gagasan untuk memanfaatkan sejumlah PC berbiaya sangat rendah di sekitar komunitas untuk menghadirkan jenis komputasi paralel yang hemat harga mendorong lembaga eksplorasi di sepanjang jalur klaster komputasi efektivitas-superior (HPC) yang dibentuk dengan klaster "Beowulf" di tahun 90-an .
Cluster Beowulf adalah pendahulu dari cluster HPC saat ini. Dasar-dasar arsitektur Beowulf masih berlaku untuk penerapan HPC hari kerja saat ini, namun sejumlah PC desktop telah diubah dengan platform server dengan kepadatan signifikan yang dibuat khusus. Jaringan telah meningkat secara nyata, dengan Bandwidth Tinggi/Pengurangan Latensi InfiniBand (atau, sebagai anggukan ke masa lalu, semakin Ethernet) dan sistem file paralel kinerja umum tinggi ini sebagai SpectrumScale, Luster dan BeeGFS telah dirancang untuk membiarkan penyimpanan terus disimpan dengan menghitung. Peningkatan peralatan yang sangat baik, seringkali open-source, untuk mengendalikan komputasi tersebar dengan efisiensi tinggi juga telah membangun adopsi yang jauh lebih mudah.
Baru-baru ini, kami telah menyaksikan kemajuan HPC dari cluster asli yang bergantung pada CPU ke program yang melakukan sebagian besar pemrosesan mereka pada Model Pemrosesan Grafis (GPU), menghasilkan pengembangan komputasi yang dipercepat GPU.
Fakta dan Komputasi – tujuan GPU
Meskipun HPC ditingkatkan dengan sumber komputasi tambahan, informasi berkembang dengan kecepatan yang jauh lebih cepat. Karena awal tahun 2010, telah terjadi ledakan besar dalam informasi tidak terstruktur dari sumber daya seperti obrolan web, kamera, sensor, komunikasi video online, dan sebagainya. Ini telah menimbulkan kesulitan data yang besar untuk penyimpanan, pemrosesan, dan transfer. Paradigma inovasi teknologi yang lebih baru seperti data besar, komputasi paralel, komputasi awan, Net of Issues (IoT) dan kecerdasan sintetis (AI) tiba ke arus utama untuk mengatasi masalah yang dipicu oleh serangan informasi.
Apa yang dimiliki oleh semua paradigma ini adalah bahwa mereka saat ini dapat diparalelkan ke tingkat yang lebih tinggi. Komputasi paralel GPU HPC telah menjadi pengubah aktivitas nyata untuk AI karena komputasi paralel dapat memproses semua data ini, dalam volume waktu terbatas bekerja dengan GPU. Seiring berkembangnya beban kerja, komputasi paralel GPU dan mesin AI juga mencari tahu. Evaluasi tayangan adalah contoh luar biasa tentang bagaimana daya listrik komputasi GPU dapat membantu proyek AI. Dengan satu GPU, hanya perlu 72 jam untuk mendekati produk studi mendalam pencitraan, tetapi hanya perlu 20 menit untuk mengoperasikan produk AI yang sama pada klaster HPC dengan 64 GPU.
Bagaimana HPC mendukung kemajuan AI?
Beowulf masih terkait dengan beban kerja AI. Penyimpanan, jaringan, dan pemrosesan sangat penting untuk membuat tugas AI berjalan dalam skala besar, ini adalah saat AI dapat menggunakan lingkungan paralel berskala besar yang diberikan infrastruktur HPC (dengan GPU) untuk mengaktifkan beban kerja tindakan dengan cepat. Menginstruksikan produk AI membutuhkan lebih banyak waktu daripada menguji satu. Nilai dari menggabungkan AI dengan HPC adalah sangat mempercepat 'tahap pelatihan' dan meningkatkan akurasi dan ketergantungan desain AI, meskipun mempertahankan waktu pelatihan ke jumlah minimum.
Aplikasi yang sesuai diinginkan untuk mendukung perpaduan HPC dan AI. Ada produk dan tujuan konvensional yang saat ini digunakan untuk mengoperasikan beban kerja AI hanya dari lingkungan HPC saja, karena banyak yang berbagi kebutuhan yang sama untuk menggabungkan kumpulan besar sarana dan mengelolanya. Di sisi lain, segala sesuatu mulai dari komponen yang mendasarinya, penjadwal yang digunakan, Message Passing Interface (MPI) dan bahkan bagaimana perangkat lunak komputer dikemas mulai berubah ke arah gaya yang lebih mudah beradaptasi, dan semakin berkembang. lingkungan hibrida adalah perkembangan yang kami anggap akan terus berlanjut.
Karena kondisi penggunaan umum untuk program HPC telah terbukti dengan sempurna, modifikasi biasanya terjadi cukup lambat tapi pasti. Meski begitu, pembaruan untuk banyak aplikasi HPC hanya penting setiap 6 hingga 12 bulan. Di sisi lain, kemajuan AI terjadi begitu cepat, pembaruan dan tujuan baru, peralatan, dan perpustakaan tetap dirilis setiap hari.
Jika Anda menggunakan taktik pembaruan yang sama untuk mengelola AI Anda seperti yang Anda lakukan untuk platform HPC Anda, Anda akan tertinggal di belakang. Itulah sebabnya resolusi seperti sistem containerized DGX NVIDIA memungkinkan Anda untuk dengan cepat dan nyaman mempertahankan perkembangan terkini dari NVIDIA GPU CLOUD (NGC), sebuah database web peralatan AI dan HPC yang dikemas dalam container yang mudah dimakan.
Sudah mulai menjadi kebiasaan di komunitas lokal HPC untuk menggunakan sistem kemas untuk mengontrol peristiwa yang menguntungkan untuk penyebaran AI. Containerization telah mempercepat panduan untuk beban kerja AI di kluster HPC.
Memberikan kembali – bagaimana AI mendukung masalah klasik HPC?
Produk AI dapat digunakan untuk memprediksi hasil akhir simulasi tanpa harus mengoperasikan seluruh simulasi yang intensif sumber. Dengan memanfaatkan produk AI dengan cara ini, variabel input/faktor tata letak yang menarik dapat dipersempit menjadi daftar prospek dengan segera dan dengan biaya yang jauh lebih rendah. Variabel prospek ini dapat dijalankan melalui simulasi yang diakui untuk memvalidasi prediksi model AI.
Quantum Molecular Simulations (QMS), Chip Structure dan Drug Discovery adalah tempat di mana prosedur ini semakin banyak digunakan, IBM juga baru-baru ini merilis produk yang secara khusus melakukan ini yang disebut IBM Bayesian Optimization Accelerator (BOA).
Bagaimana integrator HPC dapat membantu infrastruktur AI Anda?
Mulailah dengan beberapa pertanyaan sederhana Seberapa besar kesulitan saya? Seberapa cepat saya ingin hasil saya kembali lagi? Seberapa signifikan pengetahuan yang saya miliki untuk prosedur? Berapa banyak orang yang berbagi sumber daya yang bermanfaat?
Prosedur HPC akan memungkinkan pengelolaan usaha AI jika kumpulan data yang ada cukup besar, atau jika tantangan persaingan saat ini sedang dialami pada infrastruktur dari mendapatkan berbagai pengguna. Jika Anda menghadapi masalah di mana Anda perlu mengatur empat GPU di sebuah workstation dan ini menjadi dilema dengan memicu kemacetan, Anda harus berkonsultasi dengan integrator HPC, dengan pengetahuan dalam meningkatkan infrastruktur untuk jenis ini. beban kerja.
Beberapa organisasi mungkin menjalankan beban kerja AI pada perangkat besar atau sejumlah mesin dengan GPU dan infrastruktur AI Anda mungkin tampak lebih mirip infrastruktur HPC daripada yang Anda pahami. Ada pendekatan HPC, aplikasi dan aspek lain yang pasti bisa mendukung untuk mengatur infrastruktur itu. Infrastruktur tampaknya cukup identik, tetapi ada beberapa cara cerdas untuk memasang dan merawatnya yang secara khusus diarahkan ke pemodelan AI.
Penyimpanan umumnya diabaikan ketika organisasi membuat infrastruktur untuk beban kerja AI, dan Anda mungkin tidak memperoleh ROI total pada infrastruktur AI Anda jika komputasi Anda menunggu penyimpanan Anda dikosongkan. Penting untuk mencari panduan terbaik untuk menentukan ukuran dan menerapkan resolusi penyimpanan yang ideal untuk klaster Anda.
Detail besar tidak selalu harus sebesar itu, hanya saja ketika mencapai posisi itu mengakibatkan tidak dapat dikelola untuk sebuah organisasi. Ketika Anda tidak bisa mendapatkan apa yang Anda inginkan, maka itu menjadi terlalu besar bagi Anda. HPC dapat memberikan energi komputasi untuk menangani sejumlah besar info dalam beban kerja AI.
Masa depan yang dapat diperkirakan
Ini adalah waktu yang menarik bagi HPC dan AI, karena kami melihat adaptasi tambahan oleh masing-masing sistem. Tantangannya semakin besar setiap hari kerja individu, dengan masalah yang lebih baru dan lebih khas yang perlu mendapatkan solusi yang lebih cepat. Misalnya, melawan serangan siber, mengidentifikasi vaksin baru, mendeteksi rudal musuh, dan sebagainya.
Akan menarik untuk melihat apa yang terjadi selanjutnya dalam kondisi penyertaan 100% lingkungan kemas ke kluster HPC, dan teknologi ini sebagai lingkungan Singularitas dan Kubernetes.
Penjadwal sekarang memulai karir dan bertahan sampai akhirnya mereka selesai yang tidak bisa menjadi keadaan yang bagus untuk lingkungan AI. Tambahan baru-baru ini, penjadwal yang lebih baru melihat efektivitas waktu nyata dan menjalankan karir berdasarkan prioritas dan runtime dan akan mampu beroperasi bersama dengan teknologi dan lingkungan containerization seperti Kubernetes untuk mengatur sumber daya yang berguna yang diperlukan.
Penyimpanan akan menjadi semakin penting untuk membantu penyebaran besar-besaran, karena sejumlah besar data harus disimpan, diberi label, diberi label, dibersihkan, dan segera dipindahkan. Infrastruktur seperti penyimpanan flash dan jaringan berkembang menjadi tantangan penting Anda, bersama dengan perangkat lunak komputer penyimpanan yang dapat disesuaikan dengan kebutuhan.
Sama-sama HPC dan AI akan terus berdampak pada organisasi yang sama dan setiap satu sama lain dan kemitraan simbiosis mereka hanya akan berkembang lebih kuat karena pengguna HPC dan pemodel infrastruktur AI yang sama mengetahui kemungkinan total satu sama lain.
Vibin Vijay, Spesialis Solusi AI, OCF