Cloud vira a transformação de detalhes de cabeça para baixo
Publicados: 2021-12-28O método comum de transformação de informações de extrair, transformar completamente e carregar (ETL) está sendo rapidamente invertido em uma reviravolta da moda habilitada por sistemas em nuvem.
Os gastos reduzidos da nuvem, sua adaptabilidade e escalabilidade e a enorme capacidade de processamento dos armazéns de conhecimento em nuvem impulsionaram uma mudança principal: a capacidade de carregar todos os fatos na nuvem, logo antes de transformá-la. Esse desenvolvimento significa que o ETL sozinho foi transformado - em extrair, carregar e transformar completamente, ou ELT.
O ELT oferece uma série de recompensas, juntamente com a retenção de granularidade de fatos, necessidade minimizada para engenheiros de aplicação caros e situações de retorno de projeto visivelmente menores.
Transformação de informações:
Os dados são essenciais para as corporações, que os usam para reconhecer seus clientes, determinar novos clientes em potencial e ajudar os tomadores de decisão com dados vitais e atualizados. No entanto, para avaliar os dados, ele deve primeiro ser estruturado. Ele deseja ser compreendido para que possa ser inserido em painéis, experiências e estilos preditivos.
O desafio é que os fatos crus não se apresentam como dados usáveis e formatados de forma fantástica. É aí que a transformação de dados chega. Detalhes brutos confusos desejam ser retrabalhados em representações da realidade que ajudam as pessoas a realizar ambições distintas.
Essa transformação pode ocorrer antes que os fatos sejam carregados em seu local, geralmente um depósito de detalhes, ou mais tarde
ETL padrão:
No ETL convencional, as informações são remodeladas em modelos de conhecimento prontos para exame antes de serem carregados. Como observa Charles Wang, da Fivetran, “combinar a transformação com o carregamento na etapa exata pode preservar os meios de armazenamento e computação, mas introduz uma grande fragilidade no fluxo de trabalho da engenharia de informações. Isso também significa que o pacote de software usado para transformações geralmente é criado usando linguagens de script, como Python e Java. Além disso, as mudanças no ETL podem exigir uma grande oferta de orquestração sofisticada usando instrumentos como o Airflow.”
ETL normalmente também envolve uma grande oferta de código personalizado. Uma das principais questões do ETL tradicional é, portanto, a acessibilidade. Escasso, caro significa como engenheiros e cientistas querem estar envolvidos.
Uma dificuldade adicional diz respeito às ocasiões de retorno. Os tratamentos convencionais de ETL envolvidos com armazéns de informações no local normalmente consomem muito tempo. Trabalhar com ETL também envolve manutenção de rotina regular e pode introduzir complexidade.
Técnicas modernas para a transformação:
O armazenamento costuma ter um preço proibitivamente alto. A recompensa do ETL para as empresas era que elas não precisavam carregar todo o seu conhecimento até o local final. Isso agora foi aprimorado pelos sistemas em nuvem. Estamos vendo uma enorme melhora na adoção da nuvem na África do Sul e as taxas de engenharia estão diminuindo notavelmente. Custos mais baixos tornam possível para as empresas carregar todas as suas informações para a nuvem, sem ter que ser tão consciente das despesas de armazenamento.
Isso sugere que no fluxo de trabalho atual do ELT, o conhecimento bruto é remodelado em projetos de detalhes completamente prontos para exame logo após o carregamento. Quando no armazém, o conhecimento pode ser retrabalhado utilizando SQL, que, graças à sua sintaxe intuitiva dependente do inglês, pode ser aplicado por uma variedade significativamente maior de pessoas. A transformação pode, como resultado, ser realizada por usuários da organização com conhecimento em SQL e não apenas por aqueles com know-how de codificação.
A transformação de informações hoje em dia aproveita principalmente recursos e sistemas baseados em nuvem. Eles compõem coletivamente o que é chamado de pilha de fatos modernos (MDS).
Central para este MDS é um sistema de conhecimento em nuvem altamente eficaz, geralmente um armazém em nuvem que também pode envolver lagos de detalhes. O conhecimento é carregado nele a partir de uma variedade de programas de recursos, incluindo bancos de dados, programas da Web e APIs. Para fazer isso, uma camada de transformação respeitável é usada para transformar o conhecimento não cozido em conjuntos de dados de conjunto de consultas. E, finalmente, uma solução colaborativa de inteligência e visualização para pequenas empresas permite que a empresa interaja com o conhecimento e extraia insights acionáveis para as conclusões da empresa de informações.
Em seu pequeno artigo identificado como Details Transformation Spelled out, Wang destaca que o MDS afunila as informações por meio dos seguintes estágios:
- Recursos – detalhes de bancos de dados operacionais, aplicativos SaaS, rastreamento de ocasiões
- Pipeline de conhecimento – extrai fatos de recursos e os agrupa no armazém de informações, às vezes normalizando-os
- Data warehouse – armazena fatos em bancos de dados relacionais otimizados para análise
- Dispositivo de transformação de conhecimento – um software dependente de SQL que emprega dados da fonte para criar novos modelos de fatos dentro do armazém de informações
- Recurso de análise – ferramentas para gerar histórias e visualizações, como pequenas plataformas de inteligência de negócios
Transformação no armazém de detalhes:
As transformações são personalizadas para gerar determinados designs de informações que as organizações precisam ter para análise. O ELT contemporâneo separa a extração e o carregamento da transformação. Isso pode possibilitar às empresas automatizar e terceirizar as fases de extração e carregamento do método de integração de dados. Eles podem então usar um dispositivo de transformação baseado principalmente em SQL focado no momento em que os detalhes já estiverem no warehouse.
Uma vantagem importante do ELT é que os fatos basicamente permanecem no tipo granular devido ao fato de não terem passado por grandes transformações antes de serem carregados. Com o ETL comum, uma empresa pode ter agregado conhecimento distinto antes do carregamento, eliminando completamente sua primeira granularidade.
A nova arquitetura ELT também oferece funcionalidades substanciais, flexibilidade e aspectos positivos de preço. O carregamento é rápido, e as organizações podem preservar todo o seu conhecimento no armazém de informações, mesmo aquele que possivelmente não precisa ter no momento.
“A grosso modo, os estilos de informação retrabalhados apenas no armazém de informações podem ser visualizações ou visualizações materializadas”, observa Wang. Ele continua deixando claro que cada vez que uma pessoa acessa um check-out, o data warehouse executa uma consulta para retornar as informações relevantes. Essas visualizações não são salvas. “Em uma Terra ideal com latência zero e meios computacionais irrestritos, todas as transformações seriam basicamente visualizações”, acrescenta.
Por outro lado, as vistas materializadas são salvas em disco porque as vistas criadas em tempo real a partir de uma mesa enorme ou de uma pergunta sofisticada podem induzir os armazéns de detalhes a sufocar.
EtLT:
O ELT provavelmente deve ser referido como EtLT na maioria dos cenários, pois algumas transformações leves ou normalizações geralmente são realizadas antes que o conhecimento seja carregado. Isso elimina redundâncias, duplicatas e valores derivados. Ele também organiza as tabelas dos fatos no conjunto mais claro possível de inter-relações para que os analistas possam interpretar convenientemente o produto de dados subjacente do aplicativo de recursos e construir novos tipos de informações preparados para avaliação de acordo.
“As saídas dos dutos de extração e carregamento precisam ser padronizadas se terceirizadas, o ELT automático é para fazer o trabalho”, afirma Wang. “Para normalizar efetivamente as informações de um recurso, você precisa ter um conhecimento profundo da operação fundamental do aplicativo de suprimentos e do modelo de detalhes. A maneira ideal de contornar esse desafio é terceirizar a extração e o carregamento para uma equipe que tenha intenso contato com a engenharia da informação para esse determinado recurso.”
Especialistas em TI, Keyrus