Resolviendo el enigma del conocimiento con HPC e IA
Publicado: 2021-12-15La supercomputación ha recorrido un largo camino desde sus comienzos en la década de 1960. Inicialmente, muchas supercomputadoras terminaron centradas en mainframes, sin embargo, su precio y complejidad estaban siendo límites importantes para la entrada de muchas empresas. La idea de utilizar varias PC de muy bajo costo en una comunidad para presentar un tipo rentable de computación paralela llevó a las instituciones de exploración a lo largo del camino de la creación de clústeres de computación de alto rendimiento (HPC) con clústeres "Beowulf" en la década de 1990. .
Los clústeres Beowulf son en gran medida los predecesores de los clústeres HPC actuales. Los fundamentos de la arquitectura Beowulf siguen siendo aplicables a las implementaciones de HPC de hoy en día, sin embargo, varias PC de escritorio se han cambiado con plataformas de servidor de alta densidad especialmente diseñadas. Las redes han mejorado notablemente, con InfiniBand de mayor ancho de banda/reducida latencia (o, como un guiño al pasado, cada vez más Ethernet) y sistemas de archivos paralelos de alto rendimiento general, como SpectrumScale, Lustre y BeeGFS, que se han diseñado para permitir que el almacenamiento continúe manteniendo arriba con el cálculo. La mejora de equipos excelentes, a menudo de código abierto, para controlar la computación dispersa de eficiencia superior también ha hecho que la adopción sea mucho menos complicada.
Mucho más recientemente, hemos sido testigos del avance de HPC desde los clústeres auténticos que dependen de la CPU hasta los programas que realizan la mayor parte de su procesamiento en modelos de procesamiento gráfico (GPU), lo que resulta en el desarrollo de computación acelerada por GPU.
Hechos y computación: el propósito de la GPU
Aunque HPC se estaba ampliando con una fuente de cómputo adicional, la información se expandía a una velocidad significativamente más rápida. Desde principios de 2010, ha habido una explosión sustancial en la información no estructurada de recursos como chats web, cámaras, sensores, comunicaciones de video en línea, etc. Esto ha introducido grandes dificultades de datos para el almacenamiento, procesamiento y transferencia. Los paradigmas de innovación tecnológica más recientes, como los grandes datos, la computación paralela, la computación en la nube, la red de problemas (IoT) y la inteligencia artificial (IA) llegaron a la corriente principal para hacer frente a los problemas provocados por la avalancha de datos.
Lo que todos estos paradigmas tienen en común es que actualmente pueden ser paralelizados en un grado superior. La computación paralela de GPU de HPC ha cambiado la actividad real de la IA, ya que la computación paralela puede procesar todos estos datos, en un volumen de tiempo limitado trabajando con GPU. A medida que se han desarrollado las cargas de trabajo, también lo han hecho la computación paralela de GPU y el descubrimiento de máquinas de IA. La evaluación de impresiones es un excelente ejemplo de cómo la potencia de la computación GPU puede ayudar a un proyecto de IA. Con una sola GPU, solo tomaría 72 horas acercarse a un producto de estudio profundo de imágenes, pero solo tomará 20 minutos operar el mismo producto de IA en un clúster HPC con 64 GPU.
¿Cómo apoya HPC el progreso de la IA?
Beowulf todavía está relacionado con las cargas de trabajo de IA. El almacenamiento, las redes y el procesamiento son cruciales para que las tareas de IA se realicen a escala, aquí es cuando la IA puede hacer uso de los entornos paralelos a gran escala que brinda la infraestructura HPC (con GPU) para permitir cargas de trabajo de curso de acción rápidamente. La instrucción de un producto de IA lleva mucho más tiempo que las pruebas de uno solo. El valor de combinar IA con HPC es que acelera considerablemente la "etapa de entrenamiento" y aumenta la precisión y confiabilidad de los diseños de IA, aunque mantiene el tiempo de entrenamiento al mínimo.
Se busca la aplicación adecuada para admitir la combinación de HPC e IA. Hay productos y aplicaciones tradicionales que se están empleando actualmente para operar cargas de trabajo de IA solo en entornos de HPC, ya que muchos comparten los mismos requisitos para agregar grandes grupos de medios y administrarlos. Por otro lado, todo, desde los componentes subyacentes, los programadores utilizados, la interfaz de paso de mensajes (MPI) e incluso cómo se empaqueta el software, está comenzando a cambiar hacia estilos mucho más adaptables y un aumento en Los entornos híbridos es un desarrollo que esperamos ver continuar.
Como las condiciones de uso comunes para los programas de HPC están tan perfectamente probadas, las modificaciones generalmente se materializan de manera bastante lenta pero segura. Aun así, las actualizaciones de muchas aplicaciones de HPC solo son importantes cada 6 a 12 meses. Por otro lado, el avance de la IA es tan rápido que las actualizaciones y las nuevas aplicaciones, equipos y bibliotecas se publican día a día.
Si utilizó las mismas tácticas de actualización para administrar su IA que para sus plataformas HPC, se quedaría atrás. Es por eso que una resolución como el sistema en contenedores DGX de NVIDIA le permite mantenerse actualizado de manera rápida y conveniente con los desarrollos rápidos de NVIDIA GPU CLOUD (NGC), una base de datos en línea de equipos de IA y HPC encapsulados en contenedores fáciles de usar.

Está comenzando a ser normal aplicar en la comunidad local de HPC el uso de un sistema en contenedores para controlar eventos que son ventajosos para el despliegue de IA. La contenedorización ha acelerado la orientación para cargas de trabajo de IA en clústeres de HPC.
Retribuir: ¿cómo soporta la IA los problemas clásicos de HPC?
Los productos de IA se pueden utilizar para predecir el resultado final de una simulación sin tener que operar la simulación completa, intensiva en fuentes. Al utilizar un producto de IA de esta manera, las variables de entrada/los factores de diseño de interés se pueden reducir a una lista de prospectos de inmediato y a un costo significativamente menor. Estas variables prospectivas se pueden ejecutar a través de la simulación reconocida para validar la predicción del modelo de IA.
Las simulaciones moleculares cuánticas (QMS), la estructura de chips y el descubrimiento de fármacos son lugares en los que este proceso se está utilizando cada vez más. IBM también lanzó recientemente un producto que hace específicamente esto, conocido como IBM Bayesian Optimization Accelerator (BOA).
¿Cómo puede ayudar un integrador de HPC con su infraestructura de IA?
Comience con un par de consultas sencillas ¿Qué tan grande es mi dificultad? ¿Qué tan rápido quiero recuperar mis resultados? ¿Qué tan significativamente conocimiento tengo que procedimiento? ¿Cuántas personas están compartiendo el recurso útil?
Los procedimientos de HPC permitirán la gestión de una empresa de IA si el conjunto de datos existente es sustancial o si actualmente se experimentan desafíos de competencia en la infraestructura para obtener varios usuarios. Si tiene un problema en el que necesitará configurar cuatro GPU en una estación de trabajo y esto genera un dilema al desencadenar un cuello de botella, debe consultar con un integrador de HPC, con conocimiento en la ampliación de la infraestructura para este tipo de cargas de trabajo
Algunas organizaciones pueden estar ejecutando cargas de trabajo de IA en un dispositivo masivo o varias máquinas con GPU y su infraestructura de IA puede parecerse mucho más a la infraestructura de HPC de lo que imagina. Existen enfoques, aplicaciones y otros aspectos de HPC que definitivamente pueden ayudar a regular esa infraestructura. La infraestructura parece ser bastante idéntica, pero hay algunas formas inteligentes de instalarla y cuidarla específicamente orientadas hacia el modelado de IA.
El almacenamiento generalmente se pasa por alto cuando las organizaciones están creando infraestructura para cargas de trabajo de IA, y es posible que no obtenga el ROI total en su infraestructura de IA si su computación está esperando a que se libere su almacenamiento. Es importante buscar la mayor orientación para dimensionar e implementar la resolución de almacenamiento ideal para su clúster.
Los detalles grandes no siempre tienen que ser tan masivos, es solo cuando alcanza esa posición cuando se vuelve inmanejable para una organización. Cuando no puedes obtener lo que quieres, entonces se vuelve demasiado grande para ti. HPC puede proporcionar la energía de cómputo para manejar las enormes cantidades de información en las cargas de trabajo de IA.
El futuro previsible
Es un momento fascinante tanto para la HPC como para la IA, ya que estamos viendo una adaptación incremental de ambos sistemas. Los desafíos son cada día de trabajo más grandes, con problemas más recientes y más distintivos que necesitan soluciones más rápidas. Por ejemplo, contrarrestar los ataques cibernéticos, identificar nuevas vacunas, detectar misiles enemigos, etc.
Será interesante ver qué sucede a continuación en condiciones de inclusión de entornos 100% en contenedores en clústeres de HPC y tecnologías como los entornos Singularity y Kubernetes.
Los planificadores ahora inician carreras y aguantan hasta que finalmente las completan, lo que no podría ser una gran circunstancia para los entornos de IA. Además, recientemente, los programadores más recientes observan el rendimiento en tiempo real y ejecutan carreras en función de la precedencia y el tiempo de ejecución, y podrán operar junto con tecnologías y entornos de contenedorización como Kubernetes para orquestar el recurso útil requerido.
El almacenamiento será cada vez más crítico para ayudar a las implementaciones masivas, ya que se deben almacenar, etiquetar, etiquetar, limpiar y mover grandes volúmenes de datos rápidamente. La infraestructura como el almacenamiento flash y las redes se vuelven importantes para su desafío, junto con el software de almacenamiento que puede escalar con la necesidad.
Igualmente, HPC e IA seguirán teniendo un impacto en las organizaciones por igual y entre sí, y su asociación simbiótica solo se fortalecerá a medida que los usuarios igualmente comunes de HPC y los modeladores de infraestructura de IA conozcan la probabilidad total de cada uno.
Vibin Vijay, especialista en soluciones de IA, OCF