Die Entwicklung der Faktenverarbeitung: Ein Topfhintergrund

Veröffentlicht: 2022-03-14

Wie hat sich die (offene) Detailverarbeitung entwickelt? Und wie haben sich die unterschiedlichen Systeme im Laufe der Zeit weiterentwickelt, als die Datenverarbeitungsrahmen weiter verfeinert wurden und sich das Volumen und Tempo des produzierten Wissens von Stunde zu Stunde vergrößert hat?

Erlauben Sie uns einen Test, um die nächsten beiden Fragen zu beantworten: Wie können wir Details verarbeiten, und welche Techniken der Wissensverarbeitung stehen uns heutzutage leicht zur Verfügung? Warum verarbeiten wir Informationen?

Das ist ziemlich klar, wenn man an die beträchtliche Menge an verwandten Gadgets, Sensoren und Webseitenbesuchen denkt. Ganz zu schweigen von all den Details, die von Menschen und Geräten produziert werden. Es ist offensichtlich, dass die Informationsverarbeitung allgegenwärtig ist, seit wir Computersysteme erfunden und Informationen erhalten haben.

Am Anfang …

alte Datenspeicherung auf Lochkarten

Von gestanzten Spielkarten zu Quanten-Personalcomputern in 100 Jahren ist analog zum Flug der Gebrüder Wright zu den Mondlandungen. (Bildbonität: Getty)

Die Schaffung von Personal Computern erzeugte einen klaren Bedarf an Informations- und Faktenverarbeitung. In diesen unglaublich frühen Zeiten haben Laptop- oder Computerexperten die Erfahrung gemacht, maßgeschneiderte Anwendungen zur Verarbeitung von Informationen zu erstellen, und diese wurden höchstwahrscheinlich auf einer Lochkarte gespeichert.

Die nächsten Aktionen brachten die Assemblersprache und weitere sinnvolle Programmiersprachen wie Fortran, die von C und Java übernommen wurden. Überall in der prähistorischen Welt der massiven Daten verwendeten Softwareentwickler diese Sprachen, um speziell entwickelte Kurse für einzigartige Informationsverarbeitungsaufgaben zu schreiben.

Auf der anderen Seite war dieses Detailverarbeitungsparadigma nur einigen wenigen Personen zugänglich, die über einen Programmierhintergrund verfügten, was eine breitere Akzeptanz durch Informationsanalysten oder die breitere Unternehmensgemeinschaft verhinderte, die Daten systematisieren und spezifische Schlussfolgerungen ziehen wollten.

Die nächste rein natürliche Aktion war die Erfindung der Datenbank in und um die 1970er Jahre herum. Standardmäßige relationale Datenbankeinheiten wie die Datenbanken von IBM ermöglichten SQL und erhöhten die Akzeptanz der Datenverarbeitung durch ein breiteres Publikum. SQL ist eine standardisierte und ausdrucksstarke Fragesprache, die sich ähnlich wie Englisch liest.

Es ermöglichte mehr Menschen den Zugang zur Faktenverarbeitung, die sich daher nicht länger darauf verlassen mussten, dass Programmierer exklusive Fall-für-Situations-Pakete erstellen und Daten analysieren. SQL erweiterte auch die Vielfalt und Form von Zwecken, die für die Informationsverarbeitung wie Unternehmensprogramme, Analysen zu Abwanderungskosten, gemeinsame Warenkorbgröße, Entwicklungszahlen für 12 Monate im Jahresvergleich usw. relevant sind.

Morgendämmerung wichtiger Informationen

Die Ära von Huge Information begann mit dem von Google produzierten MapReduce-Papier, das ein unkompliziertes Produkt erklärt, das von zwei Primitiven abhängig ist – Map und Cutdown.

Diese Grundelemente ermöglichten parallele Berechnungen über eine große Anzahl paralleler Maschinen hinweg. Sicherlich waren bereits vor der MapReduce-Ära parallele Berechnungen mit zahlreichen Computern, Supercomputern und MPI-Geräten möglich. Trotzdem hat MapReduce es einem breiteren Publikum zugänglich gemacht.

Apache Hadoop-Logo

Hadoop ist eine Open-Up-Ressourcenanwendungsherausforderung, die eine neue Möglichkeit bietet, bedeutendes Wissen im Einzelhandel zu verarbeiten und zu verarbeiten. (Bildnachweis: Apache)

Apache Hadoop kam als Open-Source-Implementierung des Frameworks (zuerst bei Yahoo! implementiert) auf den Markt, das im Open-Source-Bereich weit verbreitet und einem breiteren Publikum zugänglich war. Hadoop wurde von einer Reihe von Unternehmen übernommen, und mehrere Significant Facts-Akteure hatten ihren Ursprung im Hadoop-Framework.

Hadoop führte etwa ein neues Paradigma im Datenverarbeitungshaus ein: die Fähigkeit, Filialinformationen in einem verteilten Dateiverfahren oder Speicher (wie HDFS für Hadoop) weiterzuverkaufen, die dann auf einer späteren Ebene abgefragt / abgefragt werden könnten.

Hadoop hat einen vergleichbaren Weg zu relationalen Datenbanken beschritten, wobei zunächst gebündelte personalisierte Programmierung durch eine bestimmte „Besetzung“ von Leuten entwickelt wurde, die bereit waren, Programme zu erstellen, um dann SQL-Abfragen auf Daten in einer verteilten Dateitechnik wie dieser umzusetzen B. Hive oder andere Speicherframeworks.

Verbunden: Umfangreiche Informationen und die 5 großen Vorteile von Hadoop .

Die Stapelverarbeitung wird hochgefahren

Die zukünftige Phase in Huge Facts bemerkte die Einführung von Apache Spark. Spark ermöglichte eine weitere Parallelisierung und brachte die Stapelverarbeitung auf die folgende Ebene. Wie bereits erwähnt, besteht die Stapelverarbeitung darin, Fakten in einen Speicherprozess zu stellen, auf dem Sie dann routinemäßige Berechnungen durchführen.

Die Schlüsselidee hier ist, dass Ihre Fakten irgendwo sitzen, obwohl Sie regelmäßig (täglich, wöchentlich, stündlich) Berechnungen durchführen, um Effekte zu ermitteln, die hauptsächlich auf früheren Daten basieren. Diese Berechnungen laufen nie konsistent und haben ein Startniveau und einen Endpunkt. Als Endergebnis müssen Sie sie laufend neu operieren, um aktuelle Endergebnisse zu erhalten.

Von Massive Knowledge zu Rapid Knowledge – die Einführung von Stream Processing

Big-Data-Konzept

Stream-Verarbeitungsanwendungen arbeiten konsistent mit Details und liefern Ergebnisse in Echtzeit, während die Informationen erstellt werden (Bildnachweis: Getty)

In dieser bevorstehenden Phase der Entwicklung von Big Information wurde die Stream-Verarbeitung eingeführt, wobei Apache Storm das allererste häufig verwendete Framework blieb (es gab gleichzeitig andere Studiensysteme und Frameworks, aber Storm war das einzige, das eine verbesserte Akzeptanz erlebte). Dieses Framework ermöglichte das Schreiben von Paketen, die kontinuierlich (24/7) betrieben werden konnten.

Im Gegensatz zur Batch-Processing-Taktik, bei der Pläne und Apps einen Anfang und ein Ende haben, laufen Stream-Processing-Programme kontinuierlich auf Fakten und liefern Ergebnisse in Echtzeit, obwohl die Fakten produziert werden. Die Stream-Verarbeitung wurde mit der Einführung von Apache Kafka (ursprünglich von LinkedIn) als Speichermechanismus für einen Nachrichtenstrom weiter ausgefeilt. Kafka fungierte als Puffer zwischen Informationsquellen und dem Verarbeitungsprogramm (wie Apache Storm).

Lambda Architecture schuf einen kleinen Umweg in der Geschichte von Large Information. Diese Architektur entstand, weil die ersten Anwender der Stream-Verarbeitung nicht der Meinung waren, dass Stream-Verarbeitungsmethoden wie Apache Storm zuverlässig genug waren, sodass sie die gleichzeitige Verwaltung beider Systeme (Batch- und Stream-Verarbeitung) ersparten.

Die Lambda-Architektur war eine Mischung aus den beiden Geräten – ein Stream-Verarbeitungsprogramm wie Apache Storm wurde für Echtzeit-Einblicke verwendet, aber dann verwendete die Architektur regelmäßig ein Stapelverarbeitungssystem, das die Wahrheit über das, was passiert war, aufrechterhielt.

Apache Flink – Stream-Verarbeitung wird verfügbar

Etwa 2015 begann Apache Flink, sich zu einem herausragenden Stream-Processing-Framework zu entwickeln, das von Entwicklern und Facts/Analytics-Führungskräften übernommen wurde.

Flink war von Anfang an geeignet und zeigte eine sehr solide, sichere Semantik und eine fehlertolerante Verarbeitungs-Engine, die Benutzer glauben ließ, dass die Lambda-Architektur nicht mehr wichtig sei und dass die Stream-Verarbeitung für anspruchsvolle Ereignisverarbeitung und kontinuierliches Joggen zuverlässig sein könnte. unternehmenskritische Apps. Der gesamte Overhead, der mit der Entwicklung und Wartung von zwei Einheiten (Batch- / Stream-Verarbeitung) einherging, wurde aufgrund des vertrauenswürdigen und verfügbaren Detailverarbeitungs-Frameworks von Flink überflüssig.

Die Stream-Verarbeitung hat ein neues Paradigma und einen Mentalitätswandel von einer Ask-for-Response-Haltung ins Leben gerufen, bei der Informationen vor einer möglichen Befragung nach Betrugsfällen gespeichert werden, zu einer Person, bei der Sie zuerst mit Gedanken nachsehen und dann die Fakten in authentischer Zeit erhalten Infos erstellt. Beispielsweise können Sie mit der Stream-Verarbeitung eine Betrugserkennungssoftware entwickeln, die rund um die Uhr läuft. Es wird Situationen in Echtzeit erfassen und Ihnen einen Einblick geben, wenn Kreditkartenbetrug vorliegt, wodurch verhindert wird, dass dies von vornherein geschieht. Dies ist höchstwahrscheinlich eine der noch größeren Verschiebungen in der Detailverarbeitung, da sie authentische Einblicke in das, was in der ganzen Welt passiert, ermöglichen wird.

Die Entwicklung der Faktenverarbeitung für offene Ressourcen hat ein typisches Muster erfahren: Ein neues Framework wird auf den Markt gebracht (dh eine relationale Datenbank, Batch-Verarbeitung, Stream-Verarbeitung), das zunächst einem einzelnen Betrachter (Programmierer) zur Verfügung steht, der maßgeschneiderte Pakete erstellen kann Wissen anzunähern.

Dann kommt die Einführung von SQL in das Framework, das dazu neigt, es für Zielgruppen allgemein zugänglich zu machen, die wirklich keine Pakete für anspruchsvolle Informationsverarbeitung schreiben wollen.

Die Stream-Verarbeitung folgt einem sehr ähnlichen Muster SQL für Stream-Verarbeitungsaktivitäten, eine breite Akzeptanz in Streaming-Anwendungen, die das Muster bestätigt, das wir in der Vergangenheit kannten. Der Stream-Processing-Marktplatz soll in den kommenden Jahren mit einer CAGR von 21,6 Prozent exponentiell wachsen. Mit diesem Wachstum und dem täglich explodierenden Angebot an Stream-Verarbeitungs-Apps und Nutzungsbedingungen sind die Entwicklungen an diesem Ort ziemlich zahlreich und die Zukunft der Stream-Verarbeitung eine sich jederzeit verändernde und sich entwickelnde natürliche Umgebung.

Aljoscha Krettek ist Mitgründer und Engineering Direct bei Veverica .