A evolução do processamento de fatos: um fundo em vaso
Publicados: 2022-03-14Como o processamento de detalhes (fornecimento aberto) se desenvolveu? E como os sistemas distintos progrediram ao longo do tempo à medida que as estruturas de processamento de dados se tornaram mais refinadas e o volume e o ritmo do conhecimento produzido foram amplificados a cada hora?
Permita-nos testar para responder às próximas duas questões: Como podemos processar detalhes e quais são as técnicas de processamento de conhecimento prontamente disponíveis para nós hoje em dia? Por que processamos informações?
Isso fica bem claro quando você pensa na quantidade substancial de gadgets, sensores e visitas a páginas da web relacionados. Sem falar em todos os detalhes produzidos por seres humanos e equipamentos. É evidente que o processamento de informações está em toda parte desde que inventamos os sistemas de computador e experimentamos o acesso à informação.
Na largada…
A criação de computadores pessoais produziu uma clara necessidade de processamento de informações e fatos. Durante esses tempos incrivelmente antigos, especialistas em laptops ou computadores experimentaram criar aplicativos personalizados para processar informações e provavelmente foram salvos em um cartão perfurado.
As próximas ações trouxeram linguagem assembly e linguagens de programação propositais adicionais como Fortran, adotadas por C e Java. Em todo o espaço de fatos maciços pré-históricos, os engenheiros de software usariam essas linguagens para escrever cursos criados especificamente para trabalhos exclusivos de processamento de informações.
Por outro lado, esse paradigma de processamento de detalhes era acessível apenas a alguns selecionados que tinham experiência em programação que impedia uma adoção mais ampla por analistas de informações ou pela comunidade mais ampla da empresa que desejava sistematizar dados e tirar conclusões específicas.
A próxima ação puramente natural notou a invenção do banco de dados, por volta da década de 1970. Unidades de banco de dados relacionais padrão, como bancos de dados da IBM, permitiram o SQL e elevaram a adoção do processamento de dados por públicos mais amplos. SQL é uma linguagem de perguntas padronizada e expressiva que se assemelha ao inglês.
Permitiu que mais pessoas acessassem o processamento de dados que, portanto, não por mais tempo tiveram que contar com programadores para criar pacotes exclusivos de situação a situação e analisar dados. O SQL também expandiu a variedade e a forma de propósitos pertinentes ao processamento de conhecimento, como programas da empresa, análise de custos de rotatividade, tamanho da cesta comum, números de desenvolvimento de 12 meses no ano e assim por diante.
Amanhecer das principais informações
A era da Huge Information começou com o papel MapReduce, produzido pelo Google, que explica um produto simples e dependente de duas primitivas – Map e Cut down.
Essas primitivas permitiam cálculos paralelos em uma grande quantidade de máquinas paralelas. Certamente, as computações paralelas eram viáveis mesmo antes da era MapReduce por meio de vários computadores, supercomputadores e dispositivos MPI. No entanto, MapReduce o projetou disponível para espectadores mais amplos.
O Apache Hadoop chegou como uma implementação de código aberto do framework (a princípio implementado no Yahoo!) que estava amplamente disponível na área de código aberto e disponível para espectadores mais amplos. O Hadoop foi adotado por uma variedade de corporações e vários players de Fatos Significativos tiveram suas origens na estrutura do Hadoop.
O Hadoop apresentou um novo paradigma na casa de processamento de dados: a capacidade de armazenar informações de varejo em um procedimento de arquivo disperso ou armazenamento (como HDFS para Hadoop), que poderia ser interrogado / consultado em um nível posterior.
O Hadoop percorreu um caminho comparável aos bancos de dados relacionais, por meio do qual o primeiro estágio incluiu programação personalizada por um “elenco” distinto de pessoas que estavam prontas para criar programas para depois colocar em prática consultas SQL sobre conhecimento em uma técnica de arquivo distribuído, esse tipo de como Hive ou outras estruturas de armazenamento.

Conectado: informações massivas e os 5 grandes profissionais do Hadoop .
O processamento em lote recebe um aumento
A fase futura em Huge Facts notou a introdução do Apache Spark. O Spark permitiu mais paralelização e trouxe o processamento em lote para o nível seguinte. Conforme apontado anteriormente, o processamento em lote consiste em colocar fatos em um processo de armazenamento no qual você realiza cálculos de rotina.
A ideia-chave aqui é que seus fatos ficam em algum lugar, embora você periodicamente (diariamente, semanalmente, de hora em hora) execute cálculos para coletar efeitos principalmente com base em dados passados. Esses cálculos nunca são executados de forma consistente e têm um nível inicial e um ponto final. Como resultado final, você deve reoperar continuamente para obter resultados finais atualizados.
Do conhecimento maciço ao conhecimento rápido - a introdução do processamento de fluxo
Este próximo estágio na evolução do Big Information notou a introdução do processamento de fluxo com o Apache Storm sendo o primeiro framework muito usado (apareceram outros sistemas de estudo e frameworks ao mesmo tempo, mas o Storm foi o único a ver a adoção aprimorada). Essa estrutura permitia a criação de pacotes que podiam operar continuamente (24 horas por dia, 7 dias por semana).
Ao contrário da tática de processamento em lote, onde planos e aplicativos têm um começo e uma conclusão, com programas de processamento de fluxo executados continuamente em fatos e produzem resultados em tempo real, embora os fatos sejam produzidos. O processamento de fluxo ficou ainda mais sofisticado com a introdução do Apache Kafka (originado no LinkedIn) como um mecanismo de armazenamento para um fluxo de mensagens. Kafka atuou como um buffer envolvendo as fontes de informação e o programa de processamento (como o Apache Storm).
A Arquitetura Lambda criou um pequeno desvio na história da Grande Informação. Essa arquitetura se originou porque os primeiros adotantes do processamento de fluxo não sentiram que métodos de processamento de fluxo como o Apache Storm eram confiáveis e adequados, portanto, salvaram cada sistema (processamento em lote e fluxo) gerenciando ao mesmo tempo.
A Arquitetura Lambda era uma mistura dos dois dispositivos – um programa de processamento de fluxo como o Apache Storm foi utilizado para insights em tempo real, mas a arquitetura usava periodicamente um sistema de processamento em lote que mantinha a verdade absoluta do que aconteceu.
Apache Flink – processamento de fluxo se torna disponível
Por volta de 2015, o Apache Flink começou a se tornar uma excelente estrutura de processamento de fluxo adotada por desenvolvedores e líderes de fatos/análises.
Adequado desde o início, o Flink exibiu uma semântica de garantia muito sólida e um mecanismo de processamento tolerante a falhas que fez com que os usuários acreditassem que a arquitetura Lambda não era mais importante e que o processamento de fluxo poderia ser confiável para processamento de eventos sofisticados e corrida contínua, aplicativos de missão crítica. Toda a sobrecarga que chegou com o desenvolvimento e manutenção de duas unidades (processamento em lote / fluxo) tornou-se redundante devido à estrutura de processamento de detalhes confiável e disponível da Flink.
O processamento de fluxo lançou um novo paradigma e uma mudança na mentalidade de uma postura de pedir-resposta, onde o conhecimento é armazenado antes de um possível interrogatório de circunstância de fraude para uma pessoa em que você verifica primeiro com pensamentos e, em seguida, obtém os fatos em tempo real como o informação é criada. Por exemplo, com o processamento de fluxo, você pode desenvolver um software de detecção de fraude que funciona 24 horas por dia, 7 dias por semana. Ele obterá situações em tempo real e fornecerá informações quando houver fraude de cartão de histórico de crédito, impedindo que realmente aconteça em primeiro lugar. Essa é provavelmente uma das mudanças ainda maiores no processamento de detalhes, pois permitirá insights em tempo real sobre o que está ocorrendo no mundo inteiro.
A evolução do processamento de fatos de recursos abertos experimentou um padrão típico, uma nova estrutura é introduzida no mercado (ou seja, um banco de dados relacional, processamento em lote, processamento de fluxo) que está inicialmente disponível para visualizadores exclusivos (programadores) que podem produzir pacotes personalizados aproximar-se do conhecimento.
Em seguida, vem a introdução do SQL na estrutura que tende a torná-lo comumente disponível para o público que realmente não deseja escrever pacotes para processamento de informações sofisticado.
O processamento de fluxo segue um padrão SQL muito semelhante para atividades de processamento de fluxo, uma ampla adoção em aplicativos de fluxo que valida o padrão que conhecemos no passado. Prevê-se que o mercado de processamento de fluxo se expanda exponencialmente nos próximos anos a um CAGR de 21,6%. Com esse crescimento e a variedade de aplicativos de processamento de fluxo e circunstâncias de uso explodindo a cada dia, os desenvolvimentos neste lugar são muitos e o futuro do processamento de fluxo é um ambiente natural em constante mudança e evolução.
Aljoscha Krettek é Cofundador e Diretor de Engenharia da Veverica .