Evoluția procesării faptelor: un fundal în ghivece

Publicat: 2022-03-14

Cum s-a dezvoltat procesarea detaliilor (oferta deschisă)? Și cum au progresat sistemele distinctive în timp, pe măsură ce cadrele de procesare a datelor au devenit foarte rafinate și volumul și ritmul cunoștințelor produse s-au amplificat cu o oră?

Permiteți-ne să testăm pentru a răspunde la următoarele două probleme: Cum putem procesa detaliile și care sunt tehnicile de procesare a cunoștințelor disponibile în prezent? De ce procesăm informațiile?

Acest lucru este destul de clar când te gândești la cantitatea substanțială de gadgeturi, senzori și vizite de pagini web aferente. Ca să nu mai vorbim de toate detaliile produse de ființe umane și echipamente. Este evident că procesarea informațiilor a existat peste tot de când am inventat sisteme informatice și am experimentat obținerea de informații.

La început…

stocarea datelor vechi pe carduri perforate

De la cărți de joc perforate la computere personale cuantice în 100 de ani este analog cu zborul de la frații Wright la aterizările pe Lună. (Evaluare credit imagine: Getty)

Crearea computerelor personale a produs o nevoie clară de procesare a informațiilor și a faptelor. În aceste vremuri incredibil de timpurii, experții în laptop sau computer au avut experiență să creeze aplicații personalizate pentru procesarea informațiilor și acestea au fost cel mai probabil salvate pe un card perforat.

Următoarele acțiuni au adus limbaj de asamblare și limbaje de programare suplimentare, cum ar fi Fortran, adoptat de C și Java. Pe tot parcursul spațiului preistoric de fapte masive, inginerii de programe software ar folosi aceste limbi pentru a scrie cursuri create special pentru joburi unice de procesare a informațiilor.

Pe de altă parte, această paradigmă de procesare a detaliilor a fost accesibilă doar unui cuplu selectat dintre cei care au experimentat un fundal de programare care a împiedicat adoptarea pe scară largă de către analiștii de informații sau de către comunitatea mai largă a companiei care doreau să sistemeze date și să tragă concluzii specifice.

Următoarea acțiune pur naturală a observat invenția bazei de date, în anii 1970 și de-a lungul anilor. Unitățile standard de baze de date relaționale, cum ar fi bazele de date IBM, au activat SQL și au crescut gradul de adoptare a procesării datelor de către un public mai larg. SQL este un limbaj de întrebări standardizat și expresiv, care se citește mai degrabă ca limba engleză.

A permis mai multor persoane să intre în procesarea faptelor, care, prin urmare, nu au avut experiență pentru o perioadă mai lungă de timp să se bazeze pe programatori pentru a produce pachete exclusive circumstanțe-cu-situație și pentru a analiza datele. SQL a extins, de asemenea, varietatea și forma de scopuri relevante pentru procesarea cunoștințelor de acest tip, cum ar fi programe ale companiei, analize privind costurile de pierdere, dimensiunea comună a coșului, cifre de dezvoltare pe 12 luni și așa mai departe.

Zorii de informații majore

Era Informației uriașe a început cu lucrarea MapReduce, produsă de Google, care explică un produs simplu, dependent de două primitive – Map și Cut down.

Aceste primitive au permis calcule paralele pe o cantitate mare de mașini paralele. Cu siguranță, calculele paralele au fost fezabile chiar înainte de era MapReduce prin intermediul a numeroase computere, supercomputere și dispozitive MPI. Cu toate acestea, MapReduce l-a conceput pentru un spectator mai larg.

logo-ul apache hadoop

Hadoop este o provocare pentru aplicații cu resurse deschise, care oferă o nouă modalitate de a distribui cu amănuntul și de a procesa cunoștințe semnificative. (Istoricul creditului de imagine: Apache)

Apache Hadoop a apărut ca o implementare open-source a framework-ului (la început implementat la Yahoo!) care a fost larg în zona open source și care poate fi obținută de un spectator mai larg. Hadoop a fost adoptat de o varietate de corporații și câțiva jucători de Fapte Semnificative și-au avut originile în cadrul Hadoop.

Hadoop a introdus o nouă paradigmă în casa de procesare a datelor: capacitatea de a vinde informații despre punctele de vânzare cu amănuntul într-o procedură de fișiere dispersate sau de stocare (cum ar fi HDFS pentru Hadoop), care ar putea fi apoi interogată/interogata la un nivel ulterior.

Hadoop a urmat o cale comparabilă cu bazele de date relaționale, prin care să înceapă cu programarea personalizată grupată de o „distribuție” distinctă de oameni care au fost gata să creeze programe pentru a pune apoi în practică interogări SQL privind cunoștințele într-o tehnică de fișiere distribuite, acest tip de ca Hive sau alte cadre de stocare.

Conectat: informații masive și cei 5 profesioniști mari ai Hadoop .

Procesarea loturilor a crescut

Faza viitoare din Huge Facts a observat introducerea Apache Spark. Spark a permis paralelizarea suplimentară și a adus procesarea lotului la următorul nivel. După cum sa subliniat anterior, procesarea în lot constă în plasarea faptelor într-un proces de stocare pe care apoi efectuați calculele de rutină.

Ideea cheie chiar aici este că faptele tale se află undeva, deși periodic (zilnic, săptămânal, orar) executați calcule pentru a culege efecte în principal pe baza datelor anterioare. Aceste calcule nu rulează niciodată în mod constant și au un nivel de început și un punct final. Ca rezultat final, trebuie să le reoperați în mod continuu pentru rezultate finale actualizate.

De la Massive Knowledge la Rapid Knowledge – introducerea procesării fluxului

conceptul de date mari

Aplicațiile de procesare a fluxului funcționează în mod consecvent pe detalii și au rezultate în timp real, în timp ce informațiile sunt create (Crédit foto: Getty)

Această etapă viitoare în evoluția Big Information a observat introducerea procesării fluxului, Apache Storm rămânând primul cadru foarte utilizat (au ajuns și alte sisteme de studiu și cadre în același timp, dar Storm a fost singurul care a văzut o adoptare îmbunătățită). Acest cadru a permis să fie scrise pachete care ar putea funcționa continuu (24/7).

Spre deosebire de tactica de procesare în lot, în care planurile și aplicațiile au un început și o concluzie, programele de procesare a fluxului rulează continuu pe fapte și produc rezultate în timp real, deși faptele este produsă. Procesarea fluxului a fost și mai sofisticată odată cu introducerea Apache Kafka (originat cu LinkedIn) ca mecanism de stocare pentru un flux de mesaje. Kafka a acționat ca un tampon care implică surse de informații și programul de procesare (cum ar fi Apache Storm).

Arhitectura Lambda a creat un mic ocol în povestea despre informații mari. Această arhitectură a apărut datorită faptului că adoptatorii preliminari ai procesării fluxului nu au considerat că metodele de procesare a fluxului precum Apache Storm sunt fiabile adecvate, astfel încât au salvat fiecare sistem (procesare în lot și procesare flux) în același timp.

Arhitectura Lambda a fost o combinație a celor două dispozitive – un program de procesare a fluxurilor precum Apache Storm a fost utilizat pentru informații în timp real, dar apoi arhitectura a folosit periodic un sistem de procesare în lot care a menținut adevărul de bază a ceea ce sa întâmplat.

Apache Flink – procesarea fluxului devine disponibilă

În jurul anului 2015, Apache Flink a început să devină un cadru remarcabil de procesare a fluxului adoptat de dezvoltatori și lideri de fapte / analize.

Potrivit încă de la început, Flink a prezentat o semantică foarte solidă și un motor de procesare tolerant la erori care a făcut utilizatorii să creadă că arhitectura Lambda nu mai era importantă și că procesarea fluxului ar putea fi de încredere pentru procesarea ocaziei sofisticată și jogging continuu. aplicații critice pentru misiune. Toate cheltuielile generale care au venit cu dezvoltarea și susținerea a două unități (procesare în lot / flux) au devenit redundante din cauza cadrului de procesare a detaliilor demne de încredere și care pot fi obținute de la Flink.

Procesarea fluxului a lansat o nouă paradigmă și o schimbare a mentalității de la o poziție de cerere de răspuns, exact în cazul în care cunoștințele sunt stocate înainte de interogarea unei posibile circumstanțe de fraudă la o persoană în care verificați cu gândurile mai întâi și apoi obțineți faptele în timp autentic, ca informatia este creata. De exemplu, cu procesarea fluxului puteți dezvolta un software de detectare a fraudei care rulează 24/7. Acesta va primi situații în timp real și vă oferă o perspectivă când există fraudă cu cardul de credit istoric, împiedicând să se întâmple cu adevărat în primul loc. Aceasta este cel mai probabil una dintre schimbările și mai mari în procesarea detaliilor, deoarece va permite perspective în timp autentic asupra a ceea ce se întâmplă în întreaga lume.

Evoluția procesării faptelor de resurse deschise a experimentat un model tipic, un nou cadru este introdus pe piață (adică o bază de date relațională, procesare în lot, procesare flux) care este inițial disponibil pentru un vizualizator unic (programatori) care poate produce pachete personalizate. a aborda cunoașterea.

Apoi vine introducerea SQL în cadrul care tinde să-l facă accesibil publicului care chiar nu doresc să scrie pachete pentru procesarea sofisticată a informațiilor.

Procesarea fluxului urmează un model SQL foarte similar pentru activitățile de procesare a fluxului, o adoptare largă în aplicațiile de streaming care validează modelul pe care îl cunoaștem în trecut. Piața de procesare a fluxurilor se preconizează să se extindă exponențial în următorii mulți ani, la un CAGR de 21,6%. Cu această creștere și gama de aplicații de procesare a fluxului și a circumstanțelor de utilizare care explodează pe zi ce trece, evoluțiile din acest loc sunt destul de puține, iar viitorul procesării fluxului este un mediu natural care se modifică și evoluează în orice moment.

Aljoscha Krettek este co-fondator și direct de inginerie la Veverica .