用 HPC 和 AI 解決知識難題
已發表: 2021-12-15考慮到超級計算始於 1960 年代,它已經走過了漫長的道路。 最初,許多超級計算機最終都集中在大型機上,即便如此,它們的價格標籤和復雜性仍然是眾多機構進入的重要界限。 上世紀 90 年代,在社區中使用大量成本極低的 PC 來呈現一種具有成本效益的並行計算的想法導致探索機構沿著高效計算 (HPC) 集群的路徑建立了“Beowulf”集群.
Beowulf 集群是當今 HPC 集群的前身。 Beowulf 架構的基本原理仍然適用於當前的日常 HPC 部署,儘管如此,許多台式 PC 已經改變為專門創建的高密度服務器平台。 網絡顯著增強,帶寬更高/延遲更低 InfiniBand(或者,作為對過去的致敬,越來越多的以太網)和高性能並行文件系統,如 SpectrumScale、Lustre 和 BeeGFS,旨在讓存儲繼續保持與計算。 用於控制高效分散計算的優秀(通常是開源的)設備的增強也使採用變得不那麼複雜。
最近,我們見證了 HPC 從真正的、依賴於 CPU 的集群到在圖形處理模型 (GPU) 上進行大部分處理的程序的進步,從而導致了 GPU 加速計算的發展。
事實與計算——GPU 的目的
儘管 HPC 正在通過額外的計算源進行擴展,但信息的擴展速度明顯更快。 自 2010 年初以來,來自網絡聊天、攝像頭、傳感器、在線視頻通信等資源的非結構化信息出現了大幅增長。 這給存儲、處理和傳輸帶來了巨大的數據困難。 更近期的技術創新範式,如大數據、並行計算、雲計算、問題網絡 (IoT) 和人工智能 (AI) 成為主流,以應對信息衝擊引發的問題。
這些範式普遍存在的是,它們目前能夠以更高的程度並行化。 HPC 的 GPU 並行計算已經真正改變了 AI 的活動,因為並行計算可以在有限的時間內使用 GPU 處理所有這些數據。 隨著工作負載的發展,GPU 並行計算和人工智能機器的發現也在發展。 印象評估是 GPU 計算的電力如何幫助 AI 項目的一個很好的例子。 使用單個 GPU 只需 72 小時即可接近成像深度學習產品,但在具有 64 個 GPU 的 HPC 集群上運行相同的 AI 產品只需 20 分鐘。
HPC 如何支持 AI 進步?
Beowulf 仍然與 AI 工作負載相關。 存儲、網絡和處理對於大規模執行 AI 任務至關重要,此時 AI 可以利用 HPC 基礎設施(帶有 GPU)提供的大規模並行環境來快速啟用行動工作負載。 指令一個 AI 產品比測試一個產品花費的時間要多得多。 將 AI 與 HPC 相結合的價值在於,它顯著加快了“訓練階段”並提高了 AI 設計的準確性和可靠性,即使將訓練時間保持在最低限度。
希望適當的應用程序支持 HPC 和 AI 混合。 目前有一些傳統的產品和用途被用於在 HPC 環境中運行 AI 工作負載,因為許多產品和用途都具有相同的必要性來聚合大量的手段池並對其進行管理。 另一方面,從底層組件、使用的調度程序、消息傳遞接口 (MPI) 甚至到計算機軟件的打包方式,一切都開始朝著更具適應性的風格方向進行修改,並且在混合環境是一種我們認為會繼續發展的發展。
由於 HPC 程序的常見使用條件得到瞭如此完美的證明,因此修改通常會相當緩慢但肯定地實現。 即便如此,許多 HPC 應用程序的更新只是大約每 6 到 12 個月才重要一次。 另一方面,人工智能的進步如此之快,更新和新用途、設備和庫每天都在發布。
如果您使用與 HPC 平台相同的更新策略來管理您的 AI,那麼您將被甩在後面。 這就是為什麼像 NVIDIA 的 DGX 容器化系統這樣的解決方案使您能夠快速方便地了解 NVIDIA GPU CLOUD (NGC) 的快速發展,這是一種封裝在簡單易用的容器中的 AI 和 HPC 設備的網絡數據庫。

使用容器化系統來控制有利於 AI 部署的場合已經開始在 HPC 本地社區中正常應用。 容器化加速了對 HPC 集群上的 AI 工作負載的指導。
回饋——人工智能如何支持經典的 HPC 問題?
人工智能產品可用於預測模擬的最終結果,而無需操作整個源密集型模擬。 通過以這種方式使用人工智能產品,可以立即將感興趣的輸入變量/佈局因素縮小到潛在客戶列表,並且費用大大降低。 這些前景變量可以通過公認的模擬來運行,以驗證 AI 模型的預測。
量子分子模擬 (QMS)、芯片結構和藥物發現是這個過程越來越多地使用的地方,IBM 最近還發布了一個專門用於此的項目,稱為 IBM 貝葉斯優化加速器 (BOA)。
HPC 集成商如何為您的 AI 基礎設施提供幫助?
從幾個簡單的問題開始我的難度有多大? 我希望我的結果恢復的速度有多快? 我對程序有多大的了解? 有多少人在共享有用的資源?
如果現有數據集很大,或者當前在基礎設施上因獲得各種用戶而面臨競爭挑戰,HPC 程序將能夠管理人工智能項目。 如果您遇到需要在工作站中設置四個 GPU 的問題,並且通過觸發瓶頸而陷入兩難境地,您需要諮詢 HPC 集成商,了解為這些類型擴展基礎設施的知識。工作量。
一些組織可能在大型設備或許多具有 GPU 的機器上運行 AI 工作負載,而您的 AI 基礎設施可能看起來比您理解的更像 HPC 基礎設施。 HPC 方法、應用程序和其他方面絕對可以支持規範該基礎設施。 基礎設施似乎完全相同,但有一些專門針對 AI 建模方向的智能方法可以安裝和維護它。
當組織為 AI 工作負載創建基礎架構時,存儲通常會被忽略,如果您的計算正在等待釋放存儲,您可能無法獲得 AI 基礎架構的總投資回報率。 為您的集群確定大小和部署理想存儲分辨率的最佳指南非常重要。
大細節並不總是必須那麼大,只是當它到達那個位置時,它才會導致組織無法管理。 當你無法擺脫你想要的東西時,它就會變得對你來說太大了。 HPC 可以提供計算能量來處理 AI 工作負載中的大量信息。
可預見的未來
對於 HPC 和 AI 來說,這是一個令人著迷的時代,因為我們看到每個系統都在逐步適應。 每個工作日面臨的挑戰更大,更近期和更獨特的問題需要更快的補救措施。 例如,應對網絡攻擊、識別新疫苗、檢測敵方導彈等等。
在將 100% 容器化環境包含到 HPC 集群以及這些技術(如 Singularity 和 Kubernetes 環境)的條件下,接下來會發生什麼將很有吸引力。
調度員現在開始職業生涯並堅持到最終完成,這對於人工智能環境來說不是一個很好的情況。 此外,最近,更近期的調度程序觀察實時效率並根據優先級和運行時間執行任務,並且能夠與容器化技術和環境一起運行,例如 Kubernetes,以編排所需的有用資源。
存儲將變得越來越重要,以幫助大規模部署,因為必須迅速存儲、標記、標記、清理和移動大量事實。 閃存存儲和網絡等基礎設施以及可根據需要擴展的存儲計算機軟件對您的挑戰至關重要。
同樣,HPC 和 AI 將繼續對同樣的組織和彼此產生影響,並且它們的共生夥伴關係只會隨著同樣常見的 HPC 用戶和 AI 基礎設施建模者了解彼此的總可能性而變得更加強大。
Vibin Vijay,人工智能解決方案專家, OCF