L'évolution du traitement des faits : un arrière-plan en pot

Publié: 2022-03-14

Comment le traitement des détails (open supply) s'est-il développé ? Et comment les systèmes distinctifs ont-ils progressé au fil du temps alors que les cadres de traitement des données sont devenus plus raffinés et que le volume et le rythme des connaissances produites se sont amplifiés d'heure en heure ?

Permettez-nous de tester pour répondre aux deux questions suivantes : comment pouvons-nous traiter les détails, et quelles sont les techniques de traitement des connaissances dont nous disposons aujourd'hui ? Pourquoi procédons-nous à l'information ?

C'est assez clair quand on pense à la quantité importante de gadgets, de capteurs et de visites de pages Web connexes. Sans oublier tous les détails produits par les êtres humains et les équipements. Il est évident que le traitement de l'information existe depuis que nous avons inventé les systèmes informatiques et expérimenté l'obtention d'informations.

Au départ…

ancien stockage de données sur cartes perforées

Des cartes à jouer perforées aux ordinateurs personnels quantiques en 100 ans est analogue au vol des frères Wright aux alunissages. (Crédit image : Getty)

La création d'ordinateurs personnels a créé un besoin évident de traitement des informations et des faits. Au cours de ces temps incroyablement précoces, les experts en ordinateurs portables ou en informatique ont expérimenté la création d'applications personnalisées pour le traitement de l'information et celles-ci ont très probablement été enregistrées sur une carte perforée.

Les actions suivantes ont apporté le langage d'assemblage et d'autres langages de programmation utiles comme Fortran, adopté par C et Java. Tout au long de l'espace des données massives préhistoriques, les ingénieurs en logiciels utiliseraient ces langages pour écrire des cours spécialement conçus pour des tâches de traitement d'informations uniques.

D'un autre côté, ce paradigme de traitement des détails n'était accessible qu'à quelques-uns de ceux qui avaient une formation en programmation qui empêchait une adoption plus large par les analystes de l'information ou la communauté des entreprises au sens large qui souhaitaient systèmer les données et tirer des conclusions spécifiques.

La prochaine action purement naturelle a remarqué l'invention de la base de données, dans et autour des années 1970. Les unités de bases de données relationnelles standard, telles que les bases de données d'IBM, ont activé SQL et accru l'adoption du traitement des données par un public plus large. SQL est un langage de questions standardisé et expressif qui se lit un peu comme l'anglais.

Cela a permis à plus de personnes d'accéder au traitement des faits qui n'ont donc plus eu l'habitude de compter sur des programmeurs pour produire des packages exclusifs cas par cas et analyser les données. SQL a également élargi la variété et la forme des objectifs pertinents pour le traitement des connaissances tels que les programmes d'entreprise, l'analyse des coûts de désabonnement, la taille du panier commun, les chiffres de développement sur 12 mois, etc.

L'aube des informations majeures

L'ère de l'énorme information a commencé avec l'article MapReduce, produit par Google, qui explique un produit simple dépendant de deux primitives - Map et Cut down.

Ces primitives permettaient des calculs parallèles sur un grand nombre de machines parallèles. Certes, les calculs parallèles étaient réalisables même avant l'ère MapReduce au moyen de nombreux ordinateurs, superordinateurs et appareils MPI. Néanmoins, MapReduce l'a conçu à la disposition d'un public plus large.

logo apache hadoop

Hadoop est un défi d'application de ressources ouvertes qui offre une nouvelle façon de stocker et de traiter des connaissances importantes. (Historique de crédit d'image : Apache)

Apache Hadoop est arrivé après en tant qu'implémentation open-source du framework (initialement implémenté chez Yahoo!) qui était largement répandu dans le domaine open source et accessible à un plus large public. Hadoop a été adopté par un assortiment d'entreprises et plusieurs acteurs de Faits significatifs ont leurs origines dans le cadre Hadoop.

Hadoop a introduit un nouveau paradigme dans la maison de traitement de données : la capacité de stocker des informations sur les points de vente dans un processus ou un stockage de fichiers dispersés (tel que HDFS pour Hadoop) qui pourrait ensuite être interrogé / interrogé à un niveau ultérieur.

Hadoop a tracé une voie comparable aux bases de données relationnelles dans laquelle la première étape regroupait une programmation personnalisée par un «casting» distinct de personnes qui étaient prêtes à créer des programmes pour ensuite mettre en pratique des requêtes SQL sur les connaissances dans une technique de fichier distribué, ce type de comme Hive ou d'autres frameworks de stockage.

Connected : Massive info et les 5 gros pros de Hadoop .

Le traitement par lots reçoit accéléré

La phase future de Huge Facts a remarqué l'introduction d'Apache Spark. Spark a permis une parallélisation plus poussée et a amené le traitement par lots au niveau suivant. Comme indiqué précédemment, le traitement par lots consiste à placer des faits dans un processus de stockage sur lequel vous effectuez ensuite des calculs de routine.

L'idée clé ici est que vos faits se trouvent quelque part même si vous exécutez périodiquement (quotidiennement, hebdomadairement, toutes les heures) des calculs pour glaner des effets principalement basés sur des données passées. Ces calculs ne s'exécutent jamais de manière cohérente et ont un niveau de départ et un point final. En conséquence, vous devez les réutiliser de manière continue pour obtenir des résultats finaux à jour.

De la connaissance massive à la connaissance rapide - l'introduction du traitement de flux

concept de données volumineuses

Les applications de traitement de flux fonctionnent de manière cohérente sur les détails et produisent des résultats en temps réel, pendant que les informations sont créées (Crédit photo : Getty)

Cette étape à venir dans l'évolution du Big Information a vu l'introduction du traitement de flux avec Apache Storm restant le tout premier framework largement utilisé (il y a eu d'autres systèmes et frameworks d'étude en même temps, mais Storm a été le seul à voir une meilleure adoption). Ce cadre a permis d'écrire des packages qui pourraient fonctionner en continu (24h/24 et 7j/7).

Contrairement à la tactique de traitement par lots où les plans et les applications ont un début et une conclusion, les programmes de traitement de flux s'exécutent en continu sur des faits et produisent des résultats en temps réel, bien que les faits soient produits. Le traitement de flux a été encore plus sophistiqué avec l'introduction d'Apache Kafka (provenant de LinkedIn) en tant que mécanisme de stockage d'un flux de messages. Kafka a agi comme un tampon impliquant des sources d'informations et le programme de traitement (comme Apache Storm).

Lambda Architecture a créé un léger détour dans le conte de la Grande Information. Cette architecture est née du fait que les adopteurs préliminaires du traitement de flux ne pensaient pas que les méthodes de traitement de flux comme Apache Storm étaient fiables et adéquates, ils ont donc sauvé la gestion de chaque système (traitement par lots et flux) en même temps.

L'architecture Lambda était un mélange des deux appareils - un programme de traitement de flux comme Apache Storm a été utilisé pour des informations en temps réel, mais l'architecture a ensuite utilisé périodiquement un système de traitement par lots qui maintenait la vérité sur ce qui s'était passé.

Apache Flink – le traitement de flux devient disponible

Vers 2015, Apache Flink a commencé à devenir un cadre de traitement de flux exceptionnel adopté par les développeurs et les leaders des faits/analyses.

Adapté dès le départ, Flink a présenté une sémantique très solide assure juste après et un moteur de traitement tolérant aux pannes qui a fait croire aux utilisateurs que l'architecture Lambda n'était plus importante et que le traitement de flux pouvait être fiable pour un traitement d'occasion sophistiqué et un jogging continu, applications critiques. Tous les frais généraux liés au développement et à la maintenance de deux unités (traitement par lots / flux) sont devenus redondants en raison du cadre de traitement des détails fiable et accessible de Flink.

Le traitement de flux a lancé un nouveau paradigme et un changement de mentalité d'une position de demande de réponse, où les informations sont stockées avant un éventuel interrogatoire sur les circonstances de la fraude à une personne où vous vérifiez d'abord avec des pensées, puis obtenez les faits en temps réel comme le les informations sont créées. Par exemple, avec le traitement de flux, vous pouvez développer un logiciel de détection de fraude qui fonctionne 24h/24 et 7j/7. Il obtiendra des situations en temps réel et vous fournira un aperçu en cas de fraude par carte de crédit, l'empêchant de se produire réellement au premier endroit. Il s'agit très probablement de l'un des changements encore plus importants dans le traitement des détails, car il permettra d'avoir un aperçu en temps réel de ce qui se passe dans le monde entier.

L'évolution du traitement des faits sur les ressources ouvertes a connu un modèle typique d'introduction d'un nouveau cadre sur le marché (c'est-à-dire une base de données relationnelle, un traitement par lots, un traitement par flux) qui est initialement facilement disponible pour un spectateur unique (programmeurs) qui peut produire des packages sur mesure approcher la connaissance.

Vient ensuite l'introduction de SQL dans le cadre qui tend à le rendre accessible à des publics qui ne veulent vraiment pas écrire de packages pour le traitement sophistiqué de l'information.

Le traitement de flux suit un modèle très similaire SQL pour les activités de traitement de flux, une large adoption dans les applications de streaming qui valide le modèle que nous connaissions dans le passé. Le marché du traitement de flux devrait se développer de manière exponentielle au cours des prochaines années à un TCAC de 21,6 %. Avec cette croissance et la gamme d'applications de traitement de flux et les circonstances d'utilisation qui explosent de jour en jour, les développements dans ce lieu sont assez nombreux et l'avenir du traitement de flux est un environnement naturel qui change et évolue à tout moment.

Aljoscha Krettek est co-fondateur et ingénieur direct chez Veverica .