HPCとAIによる知識の難問の修正
公開: 2021-12-15スーパーコンピューティングは、1960年代に始まったことを考えると、長い道のりを歩んできました。 当初、多くのスーパーコンピューターはメインフレームを中心としていましたが、それでも、その価格と複雑さは、多くの施設の参入に対する重要な境界でした。 コミュニティ内の多数の非常に低コストのPCを利用して、価格効率の高い種類の並列コンピューティングを提示するという考えは、90年代に「Beowulf」クラスターでセットアップされた優れた効率のコンピューティング(HPC)クラスターの道に沿って探査機関を導きました。
Beowulfクラスターは、今日のHPCクラスターの前身です。 Beowulfアーキテクチャの基本は、現在の日常業務のHPC展開にも適用できますが、多くのデスクトップPCは、専用の高密度サーバープラットフォームに変更されています。 ネットワークは著しく強化されており、帯域幅が広く/レイテンシーが短縮されています。InfiniBand(または過去にうなずくようにイーサネットが増えています)と、SpectrumScale、Lustre、BeeGFSなどの高性能並列ファイルシステムは、ストレージの維持を継続できるように設計されています。コンピューティングに対応します。 優れた効率の分散コンピューティングを制御するための優れた、多くの場合オープンソースの機器の強化も、採用をはるかに簡単にしました。
さらに最近では、HPCが、本物のCPU依存クラスターから、グラフィックプロセッシングモデル(GPU)で処理の大部分を実行するプログラムに進化し、GPUアクセラレーションコンピューティングが開発されました。
事実と計算–GPUの目的
HPCは追加のコンピューティングソースでスケールアップしていましたが、情報は大幅に高速で拡張されていました。 2010年の初め以来、ウェブチャット、カメラ、センサー、オンラインビデオ通信などのリソースからの構造化されていない情報が大幅に増加しています。 これにより、ストレージ、処理、および転送に大きなデータの問題が発生しました。 最近の技術革新は、情報の猛攻撃によって引き起こされた問題に対処するために、これらのタイプの大規模データ、並列コンピューティング、クラウドコンピューティング、Net of Issues(IoT)、人工知能(AI)が主流になりました。
これらのパラダイムがすべて普及しているのは、現在、それらを優れた程度に並列化できるということです。 HPCのGPU並列コンピューティングは、AIの実際の活動を変えるものでした。並列コンピューティングは、GPUを操作する限られた時間内に、このすべてのデータを処理できるからです。 ワークロードが発達するにつれて、GPU並列コンピューティングとAIマシンも同様に発見します。 印象評価は、GPUコンピューティングの電力がAIプロジェクトをどのように支援できるかを示す素晴らしい例です。 単一のGPUを使用すると、イメージングの詳細な学習製品にアプローチするのに72時間しかかかりませんが、64個のGPUを備えたHPCクラスターでまったく同じAI製品を操作するのに20分しかかかりません。
HPCはAIの進歩をどのようにサポートしていますか?
Beowulfは依然としてAIワークロードに関連しています。 AIタスクを大規模に実行するには、ストレージ、ネットワーキング、および処理が不可欠です。これは、AIがHPCインフラストラクチャ(GPUを使用)が提供する大規模な並列環境を利用して、一連のアクションワークロードを迅速に実現できる場合です。 AI製品の指導には、単一のテストよりもはるかに長い時間がかかります。 AIとHPCを組み合わせることの価値は、トレーニング時間を最小限に抑えながらも、「トレーニング段階」を大幅にスピードアップし、AI設計の精度と信頼性を高めることです。
HPCとAIのブレンドをサポートするには、適切なアプリケーションが必要です。 多くの人が手段の実質的なプールを集約してそれらを管理するために同じ必要性を共有しているため、HPC環境だけでAIワークロードを操作するために現在採用されている従来の製品と目的があります。 一方、基盤となるコンポーネント、スケジューラーが利用するメッセージパッシングインターフェイス(MPI)、さらにはコンピューターソフトウェアのパッケージ化方法に至るまで、すべてがより適応性の高いスタイルの方向に変化し始めており、ハイブリッド環境は、今後も続くと思われる開発です。
HPCプログラムの一般的な使用条件は非常に完全に証明されているため、変更は通常、かなりゆっくりですが確実に実現します。 それでも、多くのHPCアプリの更新は、約6〜12か月ごとにのみ重要です。 一方、AIの進歩は非常に急速に進んでおり、更新や新しい目的、機器、ライブラリは日々リリースされ続けています。
HPCプラットフォームの場合と同じ更新戦術を使用してAIを管理した場合、後部に残されてしまいます。 そのため、NVIDIAのDGXコンテナ化システムのような解像度により、簡単に食べられるコンテナにカプセル化されたAIおよびHPC機器のWebデータベースであるNVIDIA GPU CLOUD(NGC)からの迅速な開発により、迅速かつ便利に最新の状態を維持できます。
HPCの地域コミュニティでは、AIの展開に有利な機会を制御するためにコンテナ化されたシステムを使用することが、通常の方法で適用され始めています。 コンテナ化により、HPCクラスター上のAIワークロードのガイダンスが加速されました。
提供する– AIは従来のHPCトラブルをどのようにサポートしていますか?
AI製品を利用すると、ソースを大量に消費するシミュレーション全体を操作する必要がなく、シミュレーションの最終結果を予測できます。 このようにAI製品を利用することで、好奇心の入力変数/レイアウト要素を、すぐに、大幅に低い費用で見込み客リストに絞り込むことができます。 これらのプロスペクト変数は、AIモデルの予測を検証するために、承認されたシミュレーションを介して実行できます。
Quantum Molecular Simulations(QMS)、Chip Structure、Drug Discoveryは、この手順がこれまで以上に使用されるようになっている場所です。IBMは、IBM Bayesian Optimization Accelerator(BOA)として知られる、これを具体的に行うアイテムも最近リリースしました。
HPCインテグレーターはAIインフラストラクチャをどのように支援できますか?
いくつかの簡単なクエリから始めましょう私の難しさはどれくらいですか? 結果をどのくらい早く戻したいですか? 手続きにはどれくらいの知識が必要ですか? 有用なリソースを共有している人は何人いますか?
HPCの手順により、既存のデータセットが充実している場合、またはインフラストラクチャでさまざまなユーザーを獲得することで競争上の課題が現在発生している場合に、AI事業の管理が可能になります。 ワークステーションに4つのGPUを設定する必要があり、ボトルネックを引き起こしてジレンマが発生する問題が発生している場合は、これらの種類のインフラストラクチャのスケールアップに関する知識を持つHPCインテグレーターに相談する必要があります。ワークステーション。
一部の組織は、大規模なデバイスまたはGPUを搭載した多数のマシンでAIワークロードを機能させている可能性があり、AIインフラストラクチャは理解しているよりもHPCインフラストラクチャに非常に似ているように見える場合があります。 そのインフラストラクチャを規制するために確実にサポートできるHPCアプローチ、アプリケーション、およびその他の側面があります。 インフラストラクチャはかなり同じように見えますが、AIモデリングの方向に特に合わせて、インフラストラクチャを導入して処理するためのインテリジェントな方法がいくつかあります。
組織がAIワークロード用のインフラストラクチャを作成している場合、ストレージは一般的に見過ごされており、コンピューティングがストレージが解放されるのを待っている場合、AIインフラストラクチャの総ROIを取得できない可能性があります。 クラスターに最適なストレージ解像度をサイジングおよびデプロイするための最大のガイダンスを検索することが重要です。
大きな詳細は必ずしもそれほど大規模である必要はありません。組織にとって管理不能になるのは、その位置に到達したときだけです。 あなたが望むものから抜け出すことができないとき、それはあなたにとってあまりにも大きくなります。 HPCは、AIワークロード内の大量の情報を処理するための計算エネルギーを提供できます。
予見可能な未来
各システムによる段階的な適応が見られるため、HPCとAIが等しく魅力的な時期です。 課題は、個々の就業日がさらに大きくなることであり、より迅速な救済が必要な、より最近のはるかに特徴的な問題があります。 適切な例として、サイバー攻撃への対抗、新しいワクチンの特定、敵のミサイルの検出などがあります。
100%コンテナ化された環境がHPCクラスターに含まれている状況で、その後に何が起こるか、そしてこれらのテクノロジーをSingularityおよびKubernetes環境として見ることは魅力的です。
スケジューラーは現在、キャリアを開始し、最終的に完了するまで持ちこたえます。これは、AI環境にとっては素晴らしい状況ではありません。 さらに最近では、最近のスケジューラーがリアルタイムの有効性を監視し、優先順位と実行時間に基づいてキャリアを実行し、Kubernetesのようにコンテナー化テクノロジーや環境と連携して、必要な有用なリソースを調整できるようになります。
膨大な量のファクトを迅速に保存、ラベル付け、ラベル付け、クレンジング、および移動する必要があるため、ストレージは大規模な展開を支援するためにこれまで以上に重要になります。 フラッシュストレージやネットワーキングなどのインフラストラクチャは、必要に応じて拡張できるストレージコンピュータソフトウェアとともに、課題にとって重要になります。
同様に、HPCとAIは、組織と相互に等しく影響を及ぼし続け、それらの共生パートナーシップは、同等に一般的なHPCユーザーとAIインフラストラクチャモデラーが互いの可能性の合計を知っている場合にのみ強力になります。
OCF 、AIソリューションスペシャリスト、Vibin Vijay