사실 처리의 진화: 화분에 담긴 배경

게시 됨: 2022-03-14

(공개 공급) 세부 정보 처리는 어떻게 발전했습니까? 그리고 데이터 처리 프레임워크가 더욱 정교해지고 생산된 지식의 양과 속도가 시간 단위로 증폭됨에 따라 독특한 시스템이 시간이 지남에 따라 어떻게 발전해 왔습니까?

다음 두 가지 문제에 답하기 위해 테스트를 허용하십시오. 세부 정보를 처리하는 방법과 오늘날 우리가 쉽게 사용할 수 있는 지식 처리 기술은 무엇입니까? 정보를 처리하는 이유는 무엇입니까?

관련 가제트, 센서 및 웹 페이지 방문의 상당한 양을 생각하면 이는 매우 분명합니다. 인간과 장비가 만들어내는 모든 세부 사항은 말할 것도 없습니다. 정보 처리는 우리가 컴퓨터 시스템을 발명하고 정보 획득을 경험한 이래로 도처에 있었다는 것이 분명합니다.

초반에…

펀치 카드의 오래된 데이터 저장

천공된 카드 놀이에서 양자 개인용 컴퓨터에 이르기까지 100년은 라이트 형제에서 달 착륙까지의 비행과 유사합니다. (이미지 신용등급: 게티)

개인용 컴퓨터의 생성은 정보 및 사실 처리에 대한 명확한 요구를 생성했습니다. 이 믿을 수 없을 정도로 초기에 랩톱 또는 컴퓨터 전문가는 정보 처리를 위한 맞춤형 응용 프로그램을 만든 경험이 있으며 이러한 응용 프로그램은 펀치 카드에 저장되었을 가능성이 큽니다.

다음 작업은 어셈블리 언어와 C 및 Java에서 채택한 Fortran과 같은 추가 목적 프로그래밍 언어를 가져왔습니다. 선사 시대의 방대한 사실 공간을 통해 소프트웨어 프로그램 엔지니어는 이러한 언어를 사용하여 고유한 정보 처리 작업을 위한 특수 과정을 작성했습니다.

반면에, 이 세부 정보 처리 패러다임은 데이터를 시스템화하고 구체적인 결론을 내리기를 원하는 정보 분석가 또는 광범위한 회사 커뮤니티에서 더 많은 채택을 막는 프로그래밍 배경을 경험한 소수의 사람만 액세스할 수 있었습니다.

다음 순전히 자연스러운 행동은 1970년대와 도처에서 데이터베이스의 발명에 주목했습니다. IBM의 데이터베이스와 같은 표준 관계형 데이터베이스 장치는 SQL을 가능하게 하고 더 많은 청중이 데이터 처리를 채택하도록 했습니다. SQL은 영어처럼 읽는 표준화되고 표현력이 풍부한 질문 언어입니다.

더 많은 사람들이 사실 처리에 참여할 수 있게 해주므로 더 오랜 시간 동안 상황별 패키지를 만들고 데이터를 분석하기 위해 프로그래머에게 의존하지 않아도 되었습니다. SQL은 또한 기업 프로그램, 이탈 비용 분석, 공통 바구니 크기, 전년 대비 12개월 개발 수치 등 지식 처리와 관련된 목적의 다양성과 형태를 확장했습니다.

주요 정보의 새벽

거대한 정보의 시대는 Map과 Cut down의 두 가지 기본 요소에 의존하는 간단한 제품을 설명하는 Google에서 제작한 MapReduce 페이퍼와 함께 시작되었습니다.

이러한 프리미티브는 많은 양의 병렬 시스템에서 병렬 계산을 허용합니다. 확실히 병렬 계산은 MapReduce 시대 이전에도 수많은 컴퓨터, 슈퍼컴퓨터 및 MPI 장치를 통해 실현 가능했습니다. 그럼에도 불구하고 MapReduce는 더 많은 사용자가 사용할 수 있도록 설계했습니다.

아파치 하둡 로고

Hadoop은 소매업체에 새로운 방법을 제공하고 중요한 지식을 처리하는 개방형 리소스 애플리케이션 과제입니다. (이미지 크레디트 히스토리: 아파치)

Apache Hadoop은 오픈 소스 영역에서 널리 퍼져 있고 더 많은 사용자가 얻을 수 있는 프레임워크의 오픈 소스 구현(처음에는 Yahoo!에서 구현됨)으로 도착했습니다. Hadoop은 다양한 기업에서 채택했으며 몇몇 중요한 사실 플레이어는 Hadoop 프레임워크 내에서 기원했습니다.

Hadoop은 데이터 처리 분야의 새로운 패러다임에 대해 소개했습니다. 분산된 파일 프로시저 또는 저장소(예: Hadoop용 HDFS)에서 판매점 정보를 소매할 수 있는 기능이 나중에 수준에서 질문/쿼리될 수 있습니다.

Hadoop은 관계형 데이터베이스에 대한 유사한 경로를 모색하여 분산 파일 기술의 지식에 대한 SQL 쿼리를 실행하기 위해 프로그램을 만들 준비가 된 사람들의 독특한 "캐스트"에 의해 단계적으로 개인화 된 프로그래밍을 시작했습니다. Hive 또는 기타 스토리지 프레임워크로.

연결됨: 방대한 정보와 Hadoop의 5가지 큰 장점 .

일괄 처리 수신 증가

거대한 사실의 미래 단계에서는 Apache Spark의 도입을 확인했습니다. Spark는 추가 병렬화를 허용하고 일괄 처리를 다음 수준으로 가져왔습니다. 이전에 지적한 바와 같이 일괄 처리는 저장 프로세스에 사실을 배치한 다음 일상적인 계산으로 구성됩니다.

여기서 핵심 아이디어는 주로 과거 데이터를 기반으로 효과를 수집하기 위해 주기적으로(매일, 매주, 매시간) 계산을 실행하더라도 사실이 어딘가에 있다는 것입니다. 이러한 계산은 일관되게 실행되지 않으며 시작 수준과 끝점이 있습니다. 결과적으로 최신 최종 결과를 얻으려면 지속적으로 다시 작동해야 합니다.

방대한 지식에서 빠른 지식으로 – 스트림 처리의 도입

빅 데이터 개념

스트림 처리 애플리케이션은 정보가 생성되는 동안 세부 사항에 대해 일관되게 작동하고 실시간으로 결과를 생성합니다 (사진 제공: Getty).

빅 정보 진화의 이 다가오는 단계는 Apache Storm이 가장 먼저 많이 사용되는 프레임워크로 남아 있는 스트림 처리의 도입을 확인했습니다(동시에 다른 연구 시스템과 프레임워크가 있었지만 Storm은 개선된 채택을 확인하기 위한 단일였습니다). 이 프레임워크를 통해 지속적으로(24/7) 작동할 수 있는 패키지를 작성할 수 있습니다.

계획과 앱에 시작과 끝이 있는 일괄 처리 전술과 반대로 스트림 처리 프로그램은 사실에 따라 계속 실행되고 사실이 생성되지만 실시간으로 결과를 만듭니다. 스트림 처리는 메시지 스트림의 저장 메커니즘으로 Apache Kafka(LinkedIn에서 시작됨)의 도입으로 더욱 정교해졌습니다. Kafka는 정보 소스와 처리 프로그램(Apache Storm과 같은)과 관련된 버퍼 역할을 했습니다.

Lambda 아키텍처는 대규모 정보의 이야기에서 약간의 우회로를 만들었습니다. 이 아키텍처는 스트림 처리의 예비 채택자가 Apache Storm과 같은 스트림 처리 방법이 적절하지 않다고 생각하여 동시에 관리하는 각 시스템(일괄 처리 및 스트림 처리)을 저장했다는 사실에 기인합니다.

Lambda 아키텍처는 두 장치가 혼합된 것이었습니다. Apache Storm과 같은 스트림 처리 프로그램은 실시간 통찰력에 활용되었지만 아키텍처는 경험한 일의 실제 사실을 유지하는 배치 처리 시스템을 주기적으로 사용했습니다.

Apache Flink – 스트림 처리가 사용 가능으로 바뀝니다.

2015년경에 Apache Flink는 개발자와 사실/분석 리더가 채택한 뛰어난 스트림 처리 프레임워크가 되기 시작했습니다.

처음부터 적합한 Flink는 의미론 직후 매우 견고한 보증과 람다 아키텍처가 더 이상 중요하지 않으며 스트림 처리가 정교한 경우 처리 및 지속적인 조깅에 대해 신뢰할 수 있다고 믿도록 만든 내결함성 처리 엔진을 보여주었습니다. 미션 크리티컬 앱. Flink의 신뢰할 수 있고 얻을 수 있는 세부 정보 처리 프레임워크로 인해 두 개의 장치(일괄 처리/스트림 처리)를 개발하고 유지하면서 발생하는 모든 오버헤드가 중복되었습니다.

스트림 처리는 사기 가능성이 있는 질문에 앞서 지식을 정확히 저장하는 묻고 답하는 입장에서 생각으로 먼저 확인하고 진실한 시간에 사실을 파악하는 사람으로 사고 방식이 새로운 패러다임을 시작했습니다. 정보가 생성됩니다. 예를 들어 스트림 처리를 통해 연중무휴로 실행되는 사기 탐지 소프트웨어를 개발할 수 있습니다. 실시간으로 상황을 파악하고 신용 카드 사기가 발생했을 때 인사이트를 제공하여 실제로 발생하는 것을 1차로 방지합니다. 이것은 전 세계에서 일어나는 일에 대한 진정한 통찰력을 제공할 것이기 때문에 세부 처리의 훨씬 더 큰 변화 중 하나일 가능성이 큽니다.

개방형 자원 정보 처리의 진화는 전형적인 패턴을 경험했습니다. 맞춤형 패키지를 생산할 수 있는 고유한 뷰어(프로그래머)가 처음에 쉽게 사용할 수 있는 새로운 프레임워크(즉, 관계형 데이터베이스, 일괄 처리, 스트림 처리)가 시장에 도입되었습니다. 지식에 접근합니다.

그런 다음 정교한 정보 처리를 위한 패키지 작성을 원하지 않는 청중이 일반적으로 얻을 수 있도록 하는 프레임워크에 SQL을 도입합니다.

스트림 처리는 스트림 처리 활동에 대해 매우 유사한 패턴 SQL을 따릅니다. 과거에 알고 있었던 패턴을 검증하는 스트리밍 애플리케이션에서 광범위하게 채택됩니다. 스트림 처리 시장은 21.6%의 CAGR로 향후 몇 년 동안 기하급수적으로 확장될 것으로 예상됩니다. 이러한 성장과 스트림 처리 앱의 범위 및 사용 환경이 날로 폭발적으로 증가함에 따라 이 곳의 개발은 거의 없으며 언제든지 변화하고 진화하는 자연 환경에서 스트림 처리의 미래입니다.

Aljoscha Krettek은 Veverica의 공동 창립자이자 엔지니어링 책임자 입니다.