Ewolucja przetwarzania faktów: tło doniczkowe

Opublikowany: 2022-03-14

Jak rozwinęło się przetwarzanie danych (otwartych dostaw)? I w jaki sposób wyróżniające się systemy rozwijały się w czasie, gdy struktury przetwarzania danych stały się bardziej dopracowane, a ilość i tempo wytwarzanej wiedzy zwiększały się z godziny na godzinę?

Pozwól nam przetestować, aby odpowiedzieć na kolejne dwa pytania: Jak możemy przetwarzać szczegóły i jakie techniki przetwarzania wiedzy są dla nas obecnie łatwo dostępne? Dlaczego przetwarzamy informacje?

Jest to całkiem jasne, gdy pomyślisz o znacznej liczbie powiązanych gadżetów, czujników i odwiedzin stron internetowych. Nie wspominając o wszystkich szczegółach wytwarzanych przez ludzi i sprzęt. Oczywiste jest, że przetwarzanie informacji istnieje odkąd wynaleźliśmy systemy komputerowe i doświadczyliśmy pozyskiwania informacji.

W początkowym…

stare przechowywanie danych na kartach dziurkowanych

Od dziurkowanych kart do gry po kwantowe komputery osobiste za 100 lat jest analogiczne do lotu z braci Wright na lądowania na Księżycu. (Ocena kredytowa obrazu: Getty)

Stworzenie komputerów osobistych dało wyraźną potrzebę przetwarzania informacji i faktów. W tych niewiarygodnie wczesnych czasach eksperci od laptopów lub komputerów mieli doświadczenie w tworzeniu niestandardowych aplikacji do przetwarzania informacji, które najprawdopodobniej zostały zapisane na karcie dziurkowanej.

Kolejne działania przyniosły język asemblerowy i dodatkowe celowe języki programowania, takie jak Fortran, zaadoptowane przez C i Javę. W całej prehistorycznej, ogromnej przestrzeni faktów inżynierowie oprogramowania używali tych języków do pisania specjalnie przygotowanych kursów dla unikalnych zadań przetwarzania informacji.

Z drugiej strony, ten paradygmat przetwarzania szczegółów był dostępny tylko dla wybranych, którzy mieli doświadczenie w programowaniu, co uniemożliwiło szersze przyjęcie przez analityków informacji lub szerszą społeczność firm, która chciała systemować dane i wyciągać konkretne wnioski.

Kolejne czysto naturalne działanie zauważyło wynalezienie bazy danych w latach siedemdziesiątych i około 70-tych. Standardowe jednostki relacyjnych baz danych, takie jak bazy danych IBM, umożliwiły obsługę SQL i zwiększyły popularność przetwarzania danych przez szersze grono odbiorców. SQL to ustandaryzowany i ekspresyjny język pytań, który brzmi jak angielski.

Umożliwiło to większej liczbie osób dostęp do przetwarzania faktów, które w związku z tym przez dłuższy czas nie miały doświadczenia w oczekiwaniu na to, że programiści będą tworzyć ekskluzywne pakiety okoliczności po sytuacji i analizować dane. SQL rozszerzył również różnorodność i formę celów związanych z przetwarzaniem wiedzy, takich jak programy firmowe, analizy kosztów rezygnacji, typowy rozmiar koszyka, dane dotyczące rozwoju 12 miesięcy w roku i tak dalej.

Świt ważnych informacji

Era ogromnych informacji rozpoczęła się od artykułu MapReduce, wyprodukowanego przez Google, który wyjaśnia prosty produkt zależny od dwóch prymitywów – Map i Cut Down.

Te prymitywy pozwoliły na równoległe obliczenia na dużej liczbie równoległych maszyn. Z pewnością obliczenia równoległe były możliwe już przed erą MapReduce za pomocą wielu komputerów, superkomputerów i urządzeń MPI. Niemniej jednak MapReduce zaprojektował go dostępny dla szerszej publiczności.

logo apache hadoop

Hadoop to wyzwanie dotyczące otwartej aplikacji zasobów, które zapewnia nowy sposób sprzedaży i przetwarzania istotnej wiedzy. (Historia kredytowa obrazu: Apache)

Apache Hadoop pojawił się jako implementacja open-up-source frameworka (początkowo zaimplementowana w Yahoo!), która była szeroko rozpowszechniona w obszarze open source i dostępna dla szerszej publiczności. Hadoop został zaadoptowany przez różne korporacje, a kilku graczy ze znaczących faktów wywodziło się z platformy Hadoop.

Hadoop przedstawił nowy paradygmat w firmie zajmującej się przetwarzaniem danych: możliwość sprzedaży detalicznej informacji o punktach sprzedaży w rozproszonej procedurze plików lub pamięci (takiej jak HDFS dla Hadoop), które można następnie przesłuchiwać/przeszukiwać na późniejszym poziomie.

Hadoop obrał porównywalną drogę do relacyjnych baz danych, w której można rozpocząć od etapu spersonalizowanego programowania w pakiecie przez odrębną „obstę” ludzi, którzy byli gotowi do tworzenia programów, aby następnie zastosować w praktyce zapytania SQL dotyczące wiedzy w technice plików rozproszonych, tego rodzaju jako Hive lub inne struktury przechowywania.

Połączony: Ogromne informacje i 5 wielkich zalet Hadoop .

Przetwarzanie wsadowe nabiera tempa

Przyszła faza w Huge Facts zauważyła wprowadzenie Apache Spark. Spark umożliwił dalszą równoległość i przeniósł przetwarzanie wsadowe na wyższy poziom. Jak wskazano wcześniej, przetwarzanie wsadowe polega na umieszczaniu faktów w procesie przechowywania, na którym następnie przeprowadza się rutynowe obliczenia.

Kluczową ideą tutaj jest to, że twoje fakty znajdują się gdzieś, chociaż okresowo (codziennie, co tydzień, co godzinę) wykonujesz obliczenia, aby zebrać efekty głównie na podstawie danych z przeszłości. Te obliczenia nigdy nie działają konsekwentnie i mają poziom początkowy i punkt końcowy. W efekcie końcowym musisz je na bieżąco ponownie obsługiwać, aby uzyskać aktualne wyniki końcowe.

Od ogromnej wiedzy do szybkiej wiedzy – wprowadzenie przetwarzania strumieniowego

koncepcja dużych zbiorów danych

Aplikacje do przetwarzania strumieniowego działają konsekwentnie na szczegółach i generują wyniki w czasie rzeczywistym, podczas gdy informacje są tworzone (źródło zdjęcia: Getty)

Ten nadchodzący etap ewolucji Big Information zauważył wprowadzenie przetwarzania strumieniowego, przy czym Apache Storm pozostał pierwszym szeroko stosowanym frameworkiem (w tym samym czasie pojawiły się inne systemy i frameworki do badania, ale Storm był jedynym, który odnotował lepszą adopcję). Ten framework umożliwiał tworzenie pakietów, które mogły działać nieprzerwanie (24/7).

W przeciwieństwie do taktyki przetwarzania wsadowego, w której plany i aplikacje mają początek i zakończenie, programy do przetwarzania strumieniowego działają w sposób ciągły na faktach i dają wyniki w czasie rzeczywistym, chociaż fakty są generowane. Przetwarzanie strumieni stało się jeszcze bardziej wyrafinowane wraz z wprowadzeniem Apache Kafka (pochodzącego z LinkedIn) jako mechanizmu przechowywania strumienia wiadomości. Kafka działał jako bufor zawierający źródła informacji i program przetwarzający (np. Apache Storm).

Architektura Lambda stworzyła lekki objazd w opowieści o dużej informacji. Architektura ta powstała ze względu na to, że pierwsi użytkownicy przetwarzania strumieniowego nie uważali, że metody przetwarzania strumieniowego, takie jak Apache Storm, są wystarczająco niezawodne, dzięki czemu oszczędzali każdy system (przetwarzanie wsadowe i strumieniowe) zarządzając w tym samym czasie.

Architektura Lambda była mieszanką tych dwóch urządzeń – program do przetwarzania strumieniowego, taki jak Apache Storm, był wykorzystywany do wglądu w czasie rzeczywistym, ale architektura okresowo wykorzystywała system przetwarzania wsadowego, który utrzymywał prawdziwość tego, co się wydarzyło.

Apache Flink – przetwarzanie strumieniowe staje się dostępne

Około 2015 r. Apache Flink zaczął stawać się wyjątkową platformą przetwarzania strumieniowego, przyjętą przez programistów i liderów zajmujących się faktami / analityką.

Odpowiedni od samego początku, Flink wykazał się bardzo solidnymi gwarancjami zaraz po semantyce i odpornym na błędy silnikiem przetwarzania, który zbudował, że użytkownicy wierzą, że architektura Lambda nie jest już ważna i że przetwarzanie strumieniowe może być niezawodne w wyrafinowanym przetwarzaniu okazji i ciągłym joggingu. aplikacje o znaczeniu krytycznym. Cały narzut związany z opracowywaniem i utrzymywaniem dwóch jednostek (przetwarzanie wsadowe/strumieniowe) stał się zbędny ze względu na wiarygodną i dostępną strukturę przetwarzania danych Flink.

Przetwarzanie strumieniowe zapoczątkowało nowy paradygmat i zmianę mentalności z postawy prośby o odpowiedź, dokładnie tam, gdzie wiedza jest przechowywana przed przesłuchaniem ewentualnego oszustwa, do osoby, u której najpierw sprawdzasz myśli, a następnie uzyskujesz fakty w czasie rzeczywistym jako informacje są tworzone. Na przykład dzięki przetwarzaniu strumieniowemu można opracować oprogramowanie do wykrywania oszustw, które działa 24 godziny na dobę, 7 dni w tygodniu. Uzyska informacje o sytuacjach w czasie rzeczywistym i zapewni wgląd w przypadki oszustw związanych z kartą kredytową, powstrzymując je przed faktycznym wystąpieniem na pierwszym miejscu. Jest to najprawdopodobniej jedna z jeszcze większych zmian w przetwarzaniu szczegółów, ponieważ pozwoli na wgląd w czasie rzeczywistym w to, co dzieje się na całym świecie.

Ewolucja przetwarzania faktów z otwartych zasobów doświadczyła typowego wzorca, na rynek zostaje wprowadzony nowy framework (tj. relacyjna baza danych, przetwarzanie wsadowe, przetwarzanie strumieniowe), który jest początkowo łatwo dostępny dla unikalnych przeglądających (programistów), którzy mogą tworzyć pakiety szyte na miarę zbliżyć się do wiedzy.

Następnie pojawia się wprowadzenie języka SQL do frameworka, który sprawia, że jest on powszechnie dostępny dla odbiorców, którzy naprawdę nie chcą pisać pakietów do zaawansowanego przetwarzania informacji.

Przetwarzanie strumieni odbywa się zgodnie z bardzo podobnym wzorcem SQL dla czynności przetwarzania strumieniowego, które są szeroko stosowane w aplikacjach do przesyłania strumieniowego, co sprawdza poprawność wzorca, który znamy w przeszłości. Przewiduje się, że rynek przetwarzania strumieniowego będzie się rozwijał wykładniczo w nadchodzących latach przy CAGR wynoszącym 21,6 procent. Wraz z tym rozwojem i gamą aplikacji do przetwarzania strumieniowego i okolicznościami użytkowania, które z dnia na dzień eksplodują, zmian w tym miejscu jest całkiem sporo i przyszłością przetwarzania strumieniowego w zmieniającym się w dowolnym czasie i ewoluującym środowisku naturalnym.

Aljoscha Krettek jest współzałożycielem i bezpośrednim inżynierem w firmie Veverica .