用 HPC 和 AI 解决知识难题
已发表: 2021-12-15考虑到超级计算始于 1960 年代,它已经走过了漫长的道路。 最初,许多超级计算机最终都集中在大型机上,即便如此,它们的价格标签和复杂性仍然是众多机构进入的重要界限。 上世纪 90 年代,在社区中使用大量成本极低的 PC 来呈现一种具有成本效益的并行计算的想法引导探索机构沿着使用“Beowulf”集群建立的高效计算 (HPC) 集群的路径.
Beowulf 集群是当今 HPC 集群的前身。 Beowulf 架构的基本原理仍然适用于当前的日常 HPC 部署,尽管如此,许多台式 PC 已经改变为专门创建的高密度服务器平台。 网络显着增强,更高带宽/更低延迟 InfiniBand(或者,作为对过去的致敬,越来越多的以太网)和高性能并行文件系统,如 SpectrumScale、Lustre 和 BeeGFS,旨在让存储继续保持与计算。 用于控制高效分散计算的优秀(通常是开源的)设备的增强也使采用变得不那么复杂。
最近,我们见证了 HPC 从真正的、依赖于 CPU 的集群到在图形处理模型 (GPU) 上进行大部分处理的程序的进步,从而导致了 GPU 加速计算的发展。
事实与计算——GPU 的目的
尽管 HPC 正在通过额外的计算源进行扩展,但信息的扩展速度明显更快。 自 2010 年初以来,来自网络聊天、摄像头、传感器、在线视频通信等资源的非结构化信息出现了大幅增长。 这给存储、处理和传输带来了巨大的数据困难。 更近期的技术创新范式,如大数据、并行计算、云计算、问题网络 (IoT) 和人工智能 (AI) 成为主流,以应对信息冲击引发的问题。
这些范式普遍存在的是,它们目前能够以更高的程度并行化。 HPC 的 GPU 并行计算已经真正改变了 AI 的活动,因为并行计算可以在有限的时间内使用 GPU 处理所有这些数据。 随着工作负载的发展,GPU 并行计算和人工智能机器的发现也在发展。 印象评估是 GPU 计算的电力如何帮助 AI 项目的一个很好的例子。 使用单个 GPU 只需 72 小时即可接近成像深度学习产品,但在具有 64 个 GPU 的 HPC 集群上运行相同的 AI 产品只需 20 分钟。
HPC 如何支持 AI 进步?
Beowulf 仍然与 AI 工作负载相关。 存储、网络和处理对于大规模执行 AI 任务至关重要,此时 AI 可以利用 HPC 基础设施(带有 GPU)提供的大规模并行环境来快速启用行动工作负载。 指令一个 AI 产品比测试一个产品花费的时间要多得多。 将 AI 与 HPC 相结合的价值在于,它显着加快了“训练阶段”并提高了 AI 设计的准确性和可靠性,即使将训练时间保持在最低限度。
希望适当的应用程序支持 HPC 和 AI 混合。 目前有一些传统的产品和用途被用于在 HPC 环境中运行 AI 工作负载,因为许多产品和用途都具有相同的必要性来聚合大量的手段池并对其进行管理。 另一方面,从底层组件、使用的调度程序、消息传递接口 (MPI) 甚至到计算机软件的打包方式,一切都开始朝着更具适应性的风格方向进行修改,并且在混合环境是一种我们认为会继续发展的发展。
由于 HPC 程序的常见使用条件得到了如此完美的证明,因此修改通常会相当缓慢但肯定地实现。 即便如此,许多 HPC 应用程序的更新只是大约每 6 到 12 个月才重要一次。 另一方面,人工智能的进步如此之快,更新和新用途、设备和库每天都在发布。
如果您使用与 HPC 平台相同的更新策略来管理您的 AI,那么您将被甩在后面。 这就是为什么像 NVIDIA 的 DGX 容器化系统这样的解决方案使您能够快速方便地了解 NVIDIA GPU CLOUD (NGC) 的快速发展,这是一种封装在简单易用的容器中的 AI 和 HPC 设备的网络数据库。
使用容器化系统来控制有利于 AI 部署的场合已经开始在 HPC 本地社区中正常应用。 容器化加速了对 HPC 集群上的 AI 工作负载的指导。
回馈——人工智能如何支持经典的 HPC 问题?
人工智能产品可用于预测模拟的最终结果,而无需操作整个源密集型模拟。 通过以这种方式使用人工智能产品,可以立即将感兴趣的输入变量/布局因素缩小到潜在客户列表,并且费用大大降低。 这些前景变量可以通过公认的模拟来运行,以验证 AI 模型的预测。
量子分子模拟 (QMS)、芯片结构和药物发现是这个过程越来越多地使用的地方,IBM 最近还发布了一个专门用于此的项目,称为 IBM 贝叶斯优化加速器 (BOA)。
HPC 集成商如何为您的 AI 基础设施提供帮助?
从几个简单的问题开始我的难度有多大? 我希望我的结果恢复的速度有多快? 我对程序有多大的了解? 有多少人在共享有用的资源?
如果现有数据集很大,或者当前在基础设施上因获得各种用户而面临竞争挑战,HPC 程序将能够管理人工智能项目。 如果您遇到需要在工作站中设置四个 GPU 的问题,并且通过触发瓶颈而陷入两难境地,您需要咨询 HPC 集成商,了解为这些类型扩展基础设施的知识。工作量。
一些组织可能在大型设备或许多具有 GPU 的机器上运行 AI 工作负载,而您的 AI 基础设施可能看起来比您理解的更像 HPC 基础设施。 HPC 方法、应用程序和其他方面绝对可以支持规范该基础设施。 基础设施似乎完全相同,但有一些专门针对 AI 建模方向的智能方法可以安装和维护它。
当组织为 AI 工作负载创建基础架构时,存储通常会被忽略,如果您的计算正在等待释放存储,您可能无法获得 AI 基础架构的总投资回报率。 为您的集群确定大小和部署理想存储分辨率的最佳指南非常重要。
大细节并不总是必须那么大,只是当它到达那个位置时,它才会导致组织无法管理。 当你无法摆脱你想要的东西时,它就会变得对你来说太大了。 HPC 可以提供计算能量来处理 AI 工作负载中的大量信息。
可预见的未来
对于 HPC 和 AI 来说,这是一个令人着迷的时代,因为我们看到每个系统都在逐步适应。 每个工作日面临的挑战更大,更近期和更独特的问题需要更快的补救措施。 例如,应对网络攻击、识别新疫苗、检测敌方导弹等等。
在将 100% 容器化环境包含到 HPC 集群以及这些技术(如 Singularity 和 Kubernetes 环境)的条件下,接下来会发生什么将很有吸引力。
调度员现在开始职业生涯并坚持到最终完成,这对于人工智能环境来说不是一个很好的情况。 此外,最近,更近期的调度程序观察实时效率并根据优先级和运行时间执行任务,并且能够与容器化技术和环境一起运行,例如 Kubernetes,以编排所需的有用资源。
存储将变得越来越重要,以帮助大规模部署,因为必须迅速存储、标记、标记、清理和移动大量事实。 闪存存储和网络等基础设施以及可根据需要扩展的存储计算机软件对您的挑战至关重要。
同样,HPC 和 AI 将继续对同样的组织和彼此产生影响,并且它们的共生伙伴关系只会随着同样常见的 HPC 用户和 AI 基础设施建模者了解彼此的总可能性而变得更加强大。
Vibin Vijay,人工智能解决方案专家, OCF