HPC와 AI로 지식 난제 해결
게시 됨: 2021-12-15슈퍼컴퓨팅은 1960년대에 시작되었다는 점을 고려할 때 상당히 발전했습니다. 처음에는 많은 슈퍼컴퓨터가 메인프레임에 집중하게 되었지만 가격표와 복잡성은 수많은 시설의 진입에 중요한 경계였습니다. 90년대에 "Beowulf" 클러스터로 설정한 HPC(Superior-Effective Computing) 클러스터의 경로를 따라 탐사 기관에서 가격 효율적인 종류의 병렬 컴퓨팅을 제시하기 위해 커뮤니티 주변의 매우 저렴한 여러 대의 PC를 활용하는 생각 .
Beowulf 클러스터는 오늘날 HPC 클러스터의 전신입니다. Beowulf 아키텍처의 기본 사항은 오늘날의 일상적인 HPC 배포에도 여전히 적용 가능하지만 많은 데스크탑 PC는 목적에 맞게 제작된 고밀도 서버 플랫폼으로 변경되었습니다. 더 높은 대역폭/지연 시간 감소 InfiniBand(또는 과거에 대한 경의로 점점 더 이더넷) 및 SpectrumScale, Lustre 및 BeeGFS와 같은 고성능 병렬 파일 시스템으로 네트워킹이 눈에 띄게 향상되었습니다. 계산을 시작합니다. 탁월한 효율성을 지닌 분산 컴퓨팅을 제어하기 위한 우수한(종종 오픈 소스인) 장비의 향상은 훨씬 덜 복잡한 채택을 구축했습니다.
훨씬 더 최근에 우리는 진정한 CPU 종속 클러스터에서 GPU(그래픽 처리 모델)에서 대부분의 처리를 수행하는 프로그램으로 HPC가 발전하여 GPU 가속 컴퓨팅이 개발되는 것을 목격했습니다.
사실과 계산 – GPU의 목적
HPC는 추가 컴퓨팅 소스로 확장했지만 정보는 훨씬 더 빠른 속도로 확장되었습니다. 2010년 초부터 웹 채팅, 카메라, 센서, 온라인 비디오 통신 등과 같은 리소스에서 구조화되지 않은 정보가 폭발적으로 증가했습니다. 이로 인해 저장, 처리 및 전송에 큰 데이터 어려움이 발생했습니다. 대규모 데이터, 병렬 컴퓨팅, 클라우드 컴퓨팅, IoT(Net of Issues) 및 AI(합성 지능)와 같은 보다 최근의 기술 혁신 패러다임은 정보의 맹공격에 의해 촉발된 문제에 대처하기 위해 주류로 등장했습니다.
이러한 패러다임이 모두 널리 퍼져 있는 것은 현재 우수한 수준으로 병렬화될 수 있다는 것입니다. HPC의 GPU 병렬 컴퓨팅은 GPU로 작업하는 제한된 시간 동안 병렬 컴퓨팅이 이 모든 데이터를 처리할 수 있기 때문에 AI를 위한 실제 활동 변경자였습니다. 워크로드가 발전함에 따라 GPU 병렬 컴퓨팅과 AI 기계도 발전했습니다. 인상 평가는 GPU 컴퓨팅의 전력이 AI 프로젝트를 어떻게 지원할 수 있는지 보여주는 환상적인 예입니다. 단일 GPU를 사용하면 이미징 딥 스터디 제품에 접근하는 데 72시간이면 되지만 64개의 GPU가 있는 HPC 클러스터에서 동일한 AI 제품을 작동하는 데는 20분밖에 걸리지 않습니다.
HPC는 AI 발전을 어떻게 지원하고 있습니까?
Beowulf는 여전히 AI 워크로드와 관련이 있습니다. 스토리지, 네트워킹 및 처리는 AI 작업이 대규모로 수행되도록 하는 데 중요합니다. 이 때 AI는 HPC 인프라(GPU 포함)가 제공하는 대규모 병렬 환경을 활용하여 작업 과정을 신속하게 수행할 수 있습니다. 명령 AI 제품은 단일 테스트보다 훨씬 더 많은 시간이 걸립니다. AI와 HPC를 결합하는 것의 가치는 훈련 시간을 최소한으로 유지하면서도 '훈련 단계'를 상당히 가속화하고 AI 설계의 정확성과 신뢰성을 높인다는 것입니다.
HPC 및 AI 혼합을 지원하려면 적절한 애플리케이션이 필요합니다. 수많은 제품이 상당한 수단 풀을 집계하고 관리하기 위해 동일한 필요성을 공유하기 때문에 현재 HPC 환경에서 AI 워크로드를 운영하는 데 사용되는 기존 제품 및 목적이 있습니다. 반면에 기본 구성 요소, MPI(Message Passing Interface)를 사용하는 스케줄러 및 컴퓨터 소프트웨어 패키지 방식에 이르기까지 모든 것이 훨씬 더 적응 가능한 스타일의 방향으로 수정되기 시작했습니다. 하이브리드 환경은 계속될 것으로 예상되는 개발입니다.
HPC 프로그램의 일반적인 사용 조건이 완벽하게 입증되었기 때문에 수정은 일반적으로 상당히 느리지만 확실하게 구체화됩니다. 그럼에도 불구하고 많은 HPC 앱에 대한 업데이트는 약 6~12개월마다 중요합니다. 반면에 AI의 발전은 매우 빠르게 일어나고 있으며 업데이트와 새로운 목적, 장비 및 라이브러리가 나날이 릴리스되고 있습니다.
HPC 플랫폼에 대해 수행하는 것과 동일한 업데이트 전술을 사용하여 AI를 관리한다면 뒤처지게 될 것입니다. 그렇기 때문에 NVIDIA의 DGX 컨테이너식 시스템과 같은 해상도를 사용하면 간편하게 먹을 수 있는 컨테이너에 캡슐화된 AI 및 HPC 장비의 웹 데이터베이스인 NVIDIA GPU CLOUD(NGC)의 신속한 개발로 최신 정보를 빠르고 편리하게 유지할 수 있습니다.
AI 배포에 유리한 상황을 제어하기 위해 컨테이너화된 시스템을 사용하는 것이 HPC 로컬 커뮤니티에서 정상 적용되기 시작했습니다. 컨테이너화는 HPC 클러스터의 AI 워크로드에 대한 지침을 가속화했습니다.
되돌려주기 – AI는 기존 HPC 문제를 어떻게 지원합니까?
AI 제품은 소스 집약적인 전체 시뮬레이션을 소유하지 않고도 시뮬레이션의 최종 결과를 예측하는 데 활용할 수 있습니다. 이러한 방식으로 AI 제품을 활용하면 호기심의 입력 변수/레이아웃 요소를 훨씬 저렴한 비용으로 즉시 잠재 고객 목록으로 좁힐 수 있습니다. 이러한 전망 변수는 승인된 시뮬레이션을 통해 실행되어 AI 모델의 예측을 검증할 수 있습니다.
QMS(Quantum Molecular Simulations), 칩 구조 및 약물 발견은 이 절차가 점점 더 많이 사용되는 곳이며, IBM은 최근에 IBM BOA(Bayesian Optimization Accelerator)라고 하는 구체적으로 이 작업을 수행하는 항목을 출시했습니다.
HPC 통합자가 AI 인프라를 어떻게 도울 수 있습니까?
몇 가지 간단한 쿼리로 시작하십시오. 내 어려움은 얼마나 큽니까? 얼마나 빨리 결과를 다시 원하십니까? 절차에 얼마나 많은 지식이 필요합니까? 얼마나 많은 사람들이 유용한 리소스를 공유하고 있습니까?
HPC 절차는 기존 데이터 세트가 상당하거나 현재 인프라에서 다양한 사용자를 확보하는 데 경쟁 문제가 발생하는 경우 AI 사업을 관리할 수 있게 해줍니다. 워크스테이션에 4개의 GPU를 설정해야 하고 이것이 병목 현상을 유발하여 딜레마에 빠지는 문제가 있는 경우 이러한 종류의 인프라 확장에 대한 지식이 있는 HPC 통합자와 상의해야 합니다. 워크로드.
일부 조직은 대규모 장치 또는 GPU가 있는 여러 시스템에서 AI 워크로드를 작동할 수 있으며 AI 인프라는 생각보다 훨씬 더 HPC 인프라처럼 보일 수 있습니다. 해당 인프라를 규제하기 위해 확실히 지원할 수 있는 HPC 접근 방식, 애플리케이션 및 기타 측면이 있습니다. 인프라는 상당히 동일한 것처럼 보이지만 특히 AI 모델링 방향에 맞춰 배치하고 관리하는 지능적인 방법이 있습니다.
조직에서 AI 워크로드를 위한 인프라를 생성할 때 스토리지는 일반적으로 간과되며, 스토리지가 확보될 때까지 컴퓨팅이 대기 중인 경우 AI 인프라에 대한 총 ROI를 얻지 못할 수 있습니다. 클러스터에 이상적인 스토리지 해상도의 크기를 조정하고 배포하기 위한 최고의 지침을 찾는 것이 중요합니다.
큰 세부 사항이 항상 그렇게 방대할 필요는 없습니다. 조직에서 관리할 수 없는 결과를 초래하는 위치에 도달했을 때입니다. 당신이 원하는 것을 벗어날 수 없을 때, 그것은 당신에게 너무 거대해집니다. HPC는 AI 워크로드에서 방대한 양의 정보를 처리하기 위해 컴퓨팅 에너지를 제공할 수 있습니다.
가까운 미래
HPC와 AI가 동등하게 각 시스템에 의해 점진적으로 적응하는 것을 보고 있는 지금은 매력적인 시간입니다. 문제는 더 빠른 해결이 필요한 보다 최근의 훨씬 더 독특한 문제로 인해 개별 작업일마다 훨씬 더 커지고 있습니다. 예를 들어 사이버 공격 대응, 새로운 백신 식별, 적 미사일 탐지 등이 있습니다.
HPC 클러스터에 100% 컨테이너화된 환경과 이러한 기술을 Singularity 및 Kubernetes 환경으로 포함하는 조건에서 이후에 어떤 일이 발생하는지 보는 것은 매력적일 것입니다.
스케줄러는 이제 경력을 시작하고 마침내 완료될 때까지 버티고 있는데, 이는 AI 환경에 좋은 상황이 아닐 수 있습니다. 최근에 추가된 최신 스케줄러는 실시간 효율성을 관찰하고 우선 순위 및 런타임을 기반으로 경력을 실행하며 필요한 유용한 리소스를 조정하기 위해 Kubernetes와 같은 종류의 컨테이너화 기술 및 환경과 함께 작동할 수 있습니다.
방대한 양의 사실을 즉시 저장, 레이블 지정, 레이블 지정, 정리 및 이동해야 하기 때문에 저장소는 대규모 배포를 지원하는 데 더욱 중요해질 것입니다. 플래시 스토리지 및 네트워킹과 같은 인프라는 필요에 따라 확장할 수 있는 스토리지 컴퓨터 소프트웨어와 함께 귀하의 과제에 중요한 것으로 발전합니다.
동등하게 HPC와 AI는 동등하게 조직과 모든 조직에 계속 영향을 미치고 공생 파트너십은 동등하게 공통된 HPC 사용자와 AI 인프라 모델러가 서로의 전체 가능성을 알고 있기 때문에 더욱 강력해질 것입니다.
Vibin Vijay, AI 솔루션 전문가, OCF