Cloud ribalta la trasformazione dei dettagli
Pubblicato: 2021-12-28Il metodo comune di trasformazione delle informazioni di estrazione, trasformazione completa e caricamento (ETL) sta rapidamente venendo capovolto in una svolta alla moda resa possibile dai sistemi cloud.
La diminuzione delle spese del cloud, la sua adattabilità e scalabilità e l'enorme capacità di elaborazione dei cloud knowledge warehouse hanno spinto un cambiamento principale: la capacità di caricare tutti i fatti nel cloud, subito prima di trasformarlo. Questo sviluppo significa che l'ETL da solo è stato trasformato, in estrarre, caricare e trasformare completamente, o ELT.
ELT offre una serie di vantaggi, insieme alla conservazione della granularità dei fatti, alla riduzione al minimo della necessità per ingegneri applicativi costosi e alle situazioni di turnaround del progetto notevolmente ridotte.
Trasformazione delle informazioni:
I dati sono fondamentali per le aziende, che li utilizzano per riconoscere i propri clienti, determinare nuovi potenziali clienti e aiutare i responsabili della determinazione con dati importanti e aggiornati. Tuttavia, per valutare i dati, è necessario prima strutturarli. Desidera essere compreso in modo da poter essere inserito in dashboard, esperienze e stili predittivi.
La sfida è che i fatti crudi non si presentano come dati usabili e formattati in modo fantastico. È qui che arriva la trasformazione dei dati. I dettagli grezzi disordinati desiderano essere rielaborati in rappresentazioni della realtà che aiutino le persone a realizzare ambizioni distinte.
Questa trasformazione può essere eseguita prima che i fatti vengano caricati nella sua posizione, generalmente un magazzino di dettagli, o in un secondo momento
ETL standard:
Nell'ETL convenzionale, le informazioni vengono rimodellate in modelli di conoscenza pronti per l'esame appena prima di essere caricate. Come osserva Charles Wang di Fivetran, "combinare la trasformazione con il caricamento nella fase esatta può preservare lo storage e i mezzi di calcolo, ma introduce un'eccellente fragilità nel flusso di lavoro dell'ingegneria delle informazioni. Ciò significa anche che il pacchetto software utilizzato per le trasformazioni viene solitamente creato utilizzando linguaggi di scripting come Python e Java. Inoltre, le trasformazioni in ETL potrebbero richiedere una straordinaria offerta di orchestrazioni sofisticate che utilizzano strumenti come Airflow.
ETL normalmente comporta anche una straordinaria offerta di codice personalizzato. Una delle questioni primarie dell'ETL tradizionale è quindi l'accessibilità. Scarso, costoso significa che ingegneri e scienziati dei fatti vogliono essere coinvolti.
Un'ulteriore difficoltà riguarda le occasioni di turnaround. I trattamenti ETL convenzionali coinvolti con i magazzini informativi in sede richiedono normalmente molto tempo. Lavorare con ETL comporta anche una regolare manutenzione di routine e può introdurre complessità.
Tecniche moderne per la trasformazione:
L'archiviazione ha solitamente un prezzo proibitivo. La ricompensa di ETL per le aziende era che non dovevano caricare tutte le loro conoscenze nella posizione finale. Ciò è stato ora migliorato dai sistemi cloud. Stiamo assistendo a un enorme miglioramento nell'adozione del cloud in Sud Africa e le spese di ingegneria stanno diminuendo notevolmente. Le minori spese consentono alle aziende di caricare tutte le loro informazioni sul cloud, senza essere altrettanto consapevoli delle spese di archiviazione.
Ciò suggerisce che nell'attuale flusso di lavoro ELT, la conoscenza grezza viene rimodellata in progetti di dettagli completamente pronti per l'esame subito dopo essere stata caricata. Quando si trova in magazzino, la conoscenza può essere rielaborata utilizzando SQL, che, grazie alla sua intuitiva sintassi dipendente dall'inglese, può essere applicato da un numero significativamente più ampio di persone. Di conseguenza, la trasformazione può essere effettuata da utenti dell'organizzazione con alfabetizzazione SQL e non solo da coloro che hanno un know-how di codifica.
La trasformazione delle informazioni al giorno d'oggi sfrutta quindi principalmente risorse e sistemi basati sul cloud. Questi collettivamente costituiscono ciò che viene definito il moderno stack di fatti (MDS).
Al centro di questo MDS c'è un sistema di conoscenza cloud altamente efficace, di solito un cloud warehouse che può anche comportare laghi di dettagli. La conoscenza viene caricata in esso da una gamma di programmi di risorse inclusi database, programmi Web e API. Per fare ciò, viene utilizzato un livello di trasformazione affidabile per trasformare la conoscenza non preparata in set di dati di query-all set. Infine, una soluzione collaborativa di intelligence e visualizzazione per piccole imprese consente all'azienda di interagire con la conoscenza e di trarre informazioni utili alle conclusioni dell'azienda di informazioni.
Nel suo breve articolo identificato come Details Transformation Speld out, Wang sottolinea che l'MDS incanala le informazioni attraverso le seguenti fasi:
- Risorse: dettagli da database operativi, applicazioni SaaS, monitoraggio delle occasioni
- Conduttura della conoscenza: estrae i fatti dalle risorse e li ammassa nel magazzino delle informazioni, a volte normalizzandolo
- Data warehouse: archivia i fatti in un database relazionale ottimizzato per l'analisi
- Dispositivo di trasformazione della conoscenza: un software dipendente da SQL che utilizza i dati dalla fonte per creare nuovi modelli di fatti all'interno del magazzino delle informazioni
- Risorsa di analisi: strumenti per generare storie e visualizzazioni, come piattaforme di intelligence per piccole imprese
Trasformazione all'interno del magazzino dettagli:
Le trasformazioni sono personalizzate per generare le specifiche progettazioni di informazioni che le organizzazioni devono avere per l'analisi. L'ELT contemporaneo separa l'estrazione e il caricamento dalla trasformazione. Ciò può consentire alle aziende di automatizzare ed esternalizzare le fasi di estrazione e caricamento del metodo di integrazione dei dati. Possono quindi utilizzare un dispositivo di trasformazione mirato basato principalmente su SQL nel momento in cui i dettagli sono già nel magazzino.
Un vantaggio chiave di ELT è che i fatti rimangono sostanzialmente di tipo granulare perché non hanno subito grandi trasformazioni prima di essere caricati. Con l'ETL comune, un'azienda potrebbe aver aggregato conoscenze distinte prima del caricamento, eliminando completamente la sua prima granularità.
La nuova architettura ELT offre anche sostanziali funzionalità, flessibilità e aspetti positivi in termini di prezzo. Il caricamento è rapido e le organizzazioni possono conservare tutte le loro conoscenze nel magazzino delle informazioni, anche quelle che al momento potrebbero non avere.
"In parole povere, gli stili di informazione rielaborati solo nel magazzino delle informazioni possono essere viste o viste materializzate", osserva Wang. Continua chiarendo che ogni volta che una persona accede a un check-out, il data warehouse esegue una query per restituire le informazioni pertinenti. Queste visualizzazioni non vengono salvate. "In una terra ideale con latenza zero e mezzi di calcolo illimitati, tutte le trasformazioni sarebbero fondamentalmente viste", aggiunge.
Al contrario, le viste materializzate vengono salvate su disco per il motivo che le viste create al volo da un enorme tavolo o da una domanda sofisticata possono indurre i magazzini dei dettagli a soffocare.
EtLT:
ELT dovrebbe probabilmente essere indicato come EtLT nella maggior parte degli scenari, poiché alcune trasformazioni o normalizzazioni leggere vengono spesso eseguite prima del caricamento delle conoscenze. Ciò elimina ridondanze, duplicati e valori derivati. Organizza inoltre le tabelle dei fatti nel più chiaro insieme possibile di interrelazioni in modo che gli analisti possano interpretare convenientemente il prodotto di dati sottostante dell'app per le risorse e costruire di conseguenza nuovi tipi di informazioni preparati per la valutazione.
"Gli output delle condutture di estrazione e carico devono essere standardizzati se esternalizzati, l'ELT automatico deve portare a termine il lavoro", afferma Wang. “Per normalizzare efficacemente le informazioni da una risorsa, è necessario avere una profonda conoscenza del funzionamento fondamentale dell'applicazione di fornitura e del modello di dettaglio. Il modo ideale per aggirare questa sfida è esternalizzare l'estrazione e il caricamento a un team che ha un intenso incontro con l'ingegneria dell'informazione per quella determinata risorsa".
Specialisti IT, Keyrus