La nube pone de cabeza la transformación de los detalles
Publicado: 2021-12-28El método común de transformación de información de extracción, transformación completa y carga (ETL) se está volviendo rápidamente de cabeza en un giro de moda habilitado por los sistemas en la nube.
Los gastos reducidos de la nube, su adaptabilidad y escalabilidad, y la gran capacidad de procesamiento de los almacenes de conocimiento en la nube han impulsado un cambio importante: la capacidad de cargar todos los datos en la nube, justo antes de transformarla. Este desarrollo significa que solo ETL se ha transformado: en extracción, carga y transformación completa, o ELT.
ELT ofrece una serie de recompensas, incluida la retención de la granularidad de los datos, la necesidad minimizada de los ingenieros de aplicaciones costosos y las situaciones de respuesta del proyecto notablemente reducidas.
Transformación de información:
Los datos son críticos para las corporaciones, que los utilizan para reconocer a sus clientes, identificar nuevos prospectos y ayudar a los tomadores de decisiones con datos de misión vital y actualizados. Sin embargo, para evaluar los datos, primero deben estar estructurados. Quiere ser comprendido para que pueda incorporarse a paneles, experiencias y estilos predictivos.
El desafío es que los hechos crudos no se presentan como datos utilizables con un formato fantástico. Ahí es donde llega la transformación de datos. Los detalles desordenados en bruto deben ser reelaborados en representaciones de la realidad que ayuden a las personas a lograr distintas ambiciones.
Esta transformación puede tener lugar antes de que los datos se carguen en su ubicación, generalmente un almacén de detalles, o más tarde.
ETL estándar:
En ETL convencional, la información se remodela en modelos de conocimiento listos para el examen justo antes de que se cargue. Como señala Charles Wang de Fivetran, “combinar la transformación con la carga en el paso exacto puede preservar el almacenamiento y los medios informáticos, pero introduce una gran fragilidad en el flujo de trabajo de la ingeniería de la información. Esto también significa que el paquete de software utilizado para las transformaciones generalmente se crea utilizando lenguajes de secuencias de comandos como Python y Java. Además, las transformaciones en ETL pueden requerir una gran oferta de orquestación sofisticada utilizando instrumentos como Airflow”.
ETL normalmente también implica una excelente oferta de código personalizado. Por lo tanto, uno de los principales problemas de ETL tradicional es la accesibilidad. Medios escasos y caros como ingenieros y científicos quieren participar.
Una dificultad adicional se refiere a las ocasiones de cambio. Los tratamientos ETL convencionales relacionados con los almacenes de información en las instalaciones normalmente consumen mucho tiempo. Trabajar con ETL también implica un mantenimiento de rutina regular y puede presentar complejidad.
Técnicas modernas para la transformación:
El almacenamiento ha tenido habitualmente un precio prohibitivamente alto. La recompensa de ETL para las empresas fue que no tenían que cargar todo su conocimiento en la ubicación final. Eso ahora ha sido mejorado por los sistemas en la nube. Estamos viendo una enorme mejora en la adopción de la nube en Sudáfrica y las tarifas de ingeniería están disminuyendo notablemente. Los costos más bajos permiten que las empresas carguen toda su información en la nube, sin tener que preocuparse por los costos de almacenamiento.
Esto sugiere que en el flujo de trabajo actual de ELT, la información en bruto se remodela en diseños de detalles completamente listos para el examen justo después de que se ha cargado. Cuando está en el almacén, la información se puede reelaborar utilizando SQL, que, gracias a su sintaxis intuitiva dependiente del inglés, puede ser aplicada por una variedad mucho más amplia de personas. Como resultado, la transformación puede ser llevada a cabo por usuarios de la organización alfabetizados en SQL y no solo por aquellos con conocimientos de codificación.
La transformación de la información hoy en día aprovecha la mayoría de los recursos y sistemas basados en la nube. Estos forman colectivamente lo que se conoce como la pila de hechos modernos (MDS).
Un elemento central de este MDS es un sistema de conocimiento en la nube altamente efectivo, generalmente un almacén en la nube que también puede incluir lagos de detalles. El conocimiento se carga en él desde una variedad de programas de recursos que incluyen bases de datos, programas web y API. Para hacer esto, se utiliza una capa de transformación acreditada para transformar datos sin procesar en conjuntos de datos de conjunto de consultas. Y, por último, una solución colaborativa de inteligencia y visualización para pequeñas empresas permite que la empresa interactúe con el conocimiento y extraiga información procesable para obtener conclusiones de la empresa de información.
En su breve artículo llamado Detalles de transformación explicados, Wang señala que el MDS canaliza los datos a través de las siguientes etapas:
- Recursos: detalles de bases de datos operativas, aplicaciones SaaS, seguimiento de eventos
- Conducto de conocimiento: extrae hechos de los recursos y los acumula en el almacén de información, a veces normalizándolos
- Almacén de datos: almacena hechos en una base de datos relacional optimizada para análisis
- Dispositivo de transformación del conocimiento: un software dependiente de SQL que emplea datos de la fuente para crear nuevos modelos de hechos dentro del almacén de información.
- Recursos de análisis: herramientas para generar historias y visualizaciones, como plataformas de inteligencia de pequeñas empresas.
Transformación dentro del almacén de detalles:
Las transformaciones se personalizan para generar ciertos diseños de información que las organizaciones deben tener para el análisis. ELT contemporáneo separa la extracción y la carga de la transformación. Esto puede hacer posible que las empresas automaticen y subcontraten las fases de extracción y carga del método de integración de datos. A continuación, pueden utilizar un dispositivo de transformación centrado principalmente en SQL en el momento en que los detalles ya están en el almacén.
Una ventaja clave de ELT es que la información básicamente permanece en forma granular debido al hecho de que no ha pasado por una gran transformación antes de cargarse. Con ETL común, una empresa podría haber agregado conocimiento distinto antes de la carga, por lo tanto, eliminando por completo su primera granularidad.
La nueva arquitectura ELT también ofrece funcionalidad sustancial, flexibilidad y aspectos positivos de precio. La carga es rápida y las organizaciones pueden conservar todos sus datos en el almacén de datos, incluso los que actualmente no necesitan.
“En términos generales, los estilos de información reelaborados solo en el almacén de información pueden ser vistas o vistas materializadas”, señala Wang. Continúa aclarando que cada vez que una persona accede a una caja, el almacén de datos ejecuta una consulta para devolver la información relevante. Estas vistas no se guardan. “En una tierra ideal con latencia cero y medios computacionales sin restricciones, todas las transformaciones serían básicamente vistas”, agrega.
Por el contrario, las vistas materializadas se guardan en el disco porque las vistas creadas sobre la marcha desde una tabla grande o una pregunta sofisticada pueden hacer que los almacenes de detalles se ahoguen.
EtLT:
ELT probablemente debería denominarse EtLT en la mayoría de los escenarios, ya que a menudo se lleva a cabo una transformación o normalización ligera antes de que se cargue la información. Esto elimina redundancias, duplicados y valores derivados. También organiza tablas de los hechos en el conjunto de interrelaciones más claro posible para que los analistas puedan interpretar convenientemente el producto de datos subyacente de la aplicación de recursos y construir nuevos tipos de información preparados para la evaluación en consecuencia.
“Las salidas de las tuberías de extracción y carga deben estandarizarse si se subcontrata, el ELT automático es para hacer el trabajo”, afirma Wang. “Para normalizar efectivamente la información de un recurso, debe tener un conocimiento profundo de la operación fundamental y el modelo de detalles de la aplicación de suministro. La forma ideal de eludir este desafío es subcontratar la extracción y la carga a un equipo que tenga un contacto intensivo con la ingeniería de la información para ese recurso en particular”.
Especialistas en TI, Keyrus