Corrigindo o enigma do conhecimento com HPC e IA
Publicados: 2021-12-15A supercomputação tem ocorrido um longo caminho desde o seu início na década de 1960. Inicialmente, muitos supercomputadores acabaram centrados em mainframes, mas seu preço e complexidade estavam sendo limites significativos para a entrada de vários estabelecimentos. A ideia de utilizar um número de PCs de custo muito baixo em uma comunidade para apresentar um tipo de computação paralela econômica levou as instituições de exploração ao longo do caminho de clusters de computação de eficácia superior (HPC) configurando-se com clusters “Beowulf” nos anos 90 .
Os clusters Beowulf são muito os predecessores dos clusters HPC atuais. Os fundamentos da arquitetura Beowulf ainda são aplicáveis às atuais implantações de HPC no dia-a-dia, no entanto, vários PCs de mesa foram alterados com plataformas de servidor de densidade significativa criadas para fins específicos. A rede foi visivelmente aprimorada, com InfiniBand de maior largura de banda/latência reduzida (ou, como um aceno ao passado, cada vez mais Ethernet) e sistemas de arquivos paralelos de alto desempenho geral, como SpectrumScale, Luster e BeeGFS, foram projetados para permitir que o armazenamento continue a manter com a computação. O aprimoramento de equipamentos excelentes, geralmente de código aberto, para controlar a computação dispersa de eficiência superior também tornou a adoção muito menos complicada.
Muito mais recentemente, testemunhamos o avanço do HPC de clusters autênticos e dependentes de CPU para programas que fazem a maior parte de seu processamento em modelos de processamento gráfico (GPUs), resultando no desenvolvimento de computação acelerada por GPU.
Fatos e Computação – propósito da GPU
Embora o HPC estivesse aumentando com fonte de computação adicional, as informações estavam se expandindo em uma velocidade significativamente mais rápida. Desde o início de 2010, houve uma explosão substancial de informações não estruturadas de recursos como webchats, câmeras, sensores, comunicações de vídeo online e assim por diante. Isso introduziu grandes dificuldades de dados para armazenamento, processamento e transferência. Paradigmas de inovação tecnológica mais recentes, como big data, computação paralela, computação em nuvem, Net of Issues (IoT) e inteligência sintética (AI) chegaram ao mainstream para lidar com os problemas desencadeados pelo ataque de informações.
O que todos esses paradigmas têm em comum é que eles podem ser paralelizados em um grau superior. A computação paralela de GPU da HPC tem sido um verdadeiro alterador de atividade para a IA, pois a computação paralela pode processar todos esses dados, em um volume limitado de tempo trabalhando com GPUs. À medida que as cargas de trabalho se desenvolveram, também a computação paralela de GPU e a máquina de IA descobriram. A avaliação de impressão é um exemplo fantástico de como o poder elétrico da computação em GPU pode auxiliar um projeto de IA. Com uma única GPU, levaria apenas 72 horas para abordar um produto de estudo profundo de imagem, mas levará apenas 20 minutos para operar o mesmo produto de IA em um cluster HPC com 64 GPUs.
Como a HPC está apoiando o progresso da IA?
Beowulf ainda está relacionado a cargas de trabalho de IA. Armazenamento, rede e processamento são cruciais para que as tarefas de IA sejam executadas em escala, é quando a IA pode usar os ambientes paralelos de grande escala que a infraestrutura de HPC (com GPUs) oferece para permitir cargas de trabalho de curso de ação rapidamente. Instruir um produto de IA leva muito mais tempo do que testar um. O valor do acoplamento de IA com HPC é que ele acelera consideravelmente o 'estágio de treinamento' e aumenta a precisão e a confiabilidade dos projetos de IA, mesmo mantendo o tempo de treinamento em um valor mínimo.
O aplicativo apropriado é desejado para suportar a combinação de HPC e IA. Atualmente, existem produtos e propósitos convencionais que estão sendo empregados para operar cargas de trabalho de IA apenas em ambientes de HPC, pois vários compartilham as mesmas necessidades para agregar conjuntos substanciais de meios e gerenciá-los. Por outro lado, tudo, desde os componentes subjacentes, os escalonadores utilizados, a Message Passing Interface (MPI) e até mesmo a forma como o software de computador é empacotado está começando a se modificar na direção de estilos muito mais adaptáveis e um aumento no ambientes híbridos é um desenvolvimento que assumimos para continuar.
Como as condições de uso comum dos programas HPC são tão perfeitamente comprovadas, as modificações geralmente se materializam de maneira bastante lenta, mas segura. Mesmo assim, as atualizações para muitos aplicativos HPC são importantes apenas a cada 6 a 12 meses. Por outro lado, o avanço da IA está acontecendo tão rápido que atualizações e novos propósitos, equipamentos e bibliotecas continuam sendo lançados dia após dia.
Se você utilizasse as mesmas táticas de atualização para gerenciar sua IA como faz para suas plataformas de HPC, ficaria na parte traseira. É por isso que uma resolução como o sistema conteinerizado DGX da NVIDIA permite que você mantenha o dia-a-dia de maneira rápida e conveniente com os rápidos desenvolvimentos da NVIDIA GPU CLOUD (NGC), um banco de dados on-line de equipamentos de IA e HPC encapsulados em contêineres fáceis de comer.
Está começando a ser normal aplicar na comunidade local de HPC usar um sistema em contêiner para controlar ocasiões vantajosas para a implantação de IA. A conteinerização acelerou a orientação para cargas de trabalho de IA em clusters de HPC.
Fornecendo de volta – como a IA está suportando problemas clássicos de HPC?
Os produtos de IA podem ser utilizados para prever o resultado final de uma simulação sem precisar operar toda a simulação com uso intensivo de fontes. Ao utilizar um produto de IA dessa forma, variáveis de entrada/fatores de curiosidade de layout podem ser reduzidos a uma listagem de prospects imediatamente e com custos significativamente menores. Essas variáveis de prospecção podem ser executadas por meio da simulação reconhecida para validar a previsão do modelo de IA.
Quantum Molecular Simulations (QMS), Chip Structure e Drug Discovery são lugares onde este procedimento está cada vez mais sendo usado, a IBM também lançou recentemente um item que faz especificamente isso conhecido como IBM Bayesian Optimization Accelerator (BOA).
Como um integrador de HPC pode ajudar com sua infraestrutura de IA?
Comece com algumas perguntas diretas Qual é o tamanho da minha dificuldade? Quão rápido eu quero meus resultados de volta? Quanto conhecimento eu tenho para procedimento? Quantas pessoas estão compartilhando o recurso útil?
Os procedimentos de HPC permitirão o gerenciamento de um empreendimento de IA se o conjunto de dados existente for substancial ou se os desafios da concorrência estiverem sendo enfrentados na infraestrutura ao obter vários usuários. Se você estiver em um problema em que precisará definir quatro GPUs em uma estação de trabalho e isso estiver causando um problema ao acionar um gargalo, precisará consultar um integrador de HPC, com conhecimento em dimensionamento de infraestrutura para esses tipos de cargas de trabalho.
Algumas organizações podem estar funcionando com cargas de trabalho de IA em um dispositivo enorme ou em várias máquinas com GPUs e sua infraestrutura de IA pode parecer muito mais com a infraestrutura de HPC do que você imagina. Existem abordagens, aplicações e outros aspectos de HPC que podem apoiar definitivamente a regulação dessa infraestrutura. A infraestrutura parece ser bastante idêntica, mas existem algumas maneiras inteligentes de colocar e cuidar dela especificamente voltadas para a modelagem de IA.
O armazenamento geralmente é negligenciado quando as organizações estão criando infraestrutura para cargas de trabalho de IA, e você pode não estar adquirindo o ROI total em sua infraestrutura de IA se sua computação estiver esperando que seu armazenamento seja liberado. É importante procurar a melhor orientação para dimensionar e implantar a resolução de armazenamento ideal para seu cluster.
Grandes detalhes nem sempre precisam ser tão grandes, é apenas quando atinge essa posição que resulta em ser incontrolável para uma organização. Quando você não consegue tirar dele o que quer, então fica muito grande para você. A HPC pode fornecer energia de computação para lidar com as enormes quantidades de informações nas cargas de trabalho de IA.
O futuro previsível
É um momento fascinante para HPC e IA, pois estamos vendo uma adaptação incremental de cada sistema. Os desafios são cada vez maiores a cada dia de trabalho individual, com questões mais recentes e muito mais distintas que precisam ter soluções mais rápidas. Por exemplo, combater ataques cibernéticos, identificar novas vacinas, detectar mísseis inimigos e assim por diante.
Será interessante ver o que acontece a seguir em condições de inclusão de ambientes 100% conteinerizados em clusters HPC e tecnologias como ambientes Singularity e Kubernetes.
Os programadores agora iniciam carreiras e resistem até que finalmente concluam, o que não pode ser uma ótima circunstância para ambientes de IA. Além disso, os agendadores mais recentes observam a eficácia em tempo real e executam carreiras com base em precedência e tempo de execução e serão capazes de operar com tecnologias e ambientes de conteinerização, como Kubernetes, para orquestrar o recurso útil necessário.
O armazenamento se tornará cada vez mais crítico para ajudar em implantações em massa, pois grandes volumes de dados precisam ser armazenados, rotulados, rotulados, limpos e movidos rapidamente. Infraestrutura, como armazenamento flash e rede, tornam-se importantes para o seu desafio, juntamente com software de armazenamento que pode ser dimensionado de acordo com a necessidade.
Da mesma forma, HPC e IA continuarão a afetar igualmente as organizações e todas as outras e sua parceria simbiótica só se tornará mais forte à medida que usuários de HPC comuns e modeladores de infraestrutura de IA conhecerem a probabilidade total de cada um.
Vibin Vijay, especialista em soluções de IA, OCF