進化を処理する事実：鉢植えの背景

公開: 2022-03-14

（オープンサプライ）詳細処理はどのように開発されましたか？また、データ処理フレームワークがさらに洗練され、生成される知識の量とペースが1時間ごとに増幅されるにつれて、特徴的なシステムは時間の経過とともにどのように進歩しましたか？

次の2つの問題に答えるためにテストを許可します。詳細をどのように処理できますか。また、今日私たちがすぐに利用できる知識処理技術は何ですか。なぜ情報を手続きするのですか？

関連するガジェット、センサー、およびWebページへのアクセスのかなりの量を考えると、それは非常に明白です。人間と設備によって生み出されたすべての詳細は言うまでもありません。私たちがコンピュータシステムを発明し、情報の入手を経験して以来、情報処理がいたるところにあることは明らかです。

はじめに…

パンチカードの古いデータストレージ

パンチされたトランプから100年後の量子パーソナルコンピュータまで、ライト兄弟から月面着陸への飛行に似ています。（画像の信用格付け：ゲッティ）

明確に生成されたパーソナルコンピュータの作成は、情報と事実の処理の必要性を生み出しました。これらの信じられないほど早い時期に、ラップトップまたはコンピューターの専門家は、情報を処理するためのカスタムメイドのアプリケーションを作成した経験があり、これらはパンチカードに保存されている可能性が非常に高いです。

次のアクションは、アセンブリ言語と、CおよびJavaで採用されているFortranのような追加の目的のあるプログラミング言語をもたらしました。先史時代の大規模な事実空間全体を通して、ソフトウェアプログラムエンジニアはこれらの言語を使用して、独自の情報処理ジョブのための専用のコースを作成していました。

一方、この詳細処理パラダイムは、プログラミングのバックグラウンドを経験したカップルだけがアクセスできたため、情報アナリストや、データをシステム化して具体的な結論を出したい幅広い企業コミュニティによる幅広い採用が妨げられていました。

次の純粋に自然な行動は、1970年代とその周辺でデータベースの発明に気づきました。 IBMのデータベースなどの標準的なリレーショナル・データベース・ユニットは、SQLを可能にし、より幅広い対象者によるデータ処理の採用を促進しました。 SQLは標準化された表現力豊かな質問言語であり、英語のように読めます。

これにより、より多くの人々がファクト処理に参加できるようになり、そのため、プログラマーが状況ごとの排他的なパッケージを作成してデータを分析することを期待する経験がなくなりました。 SQLはまた、この種の企業プログラムとしての知識処理、解約コストの分析、一般的なバスケットサイズ、前年比12か月の開発数値などに関連する目的の多様性と形式を拡張しました。

主要な情報の夜明け

巨大な情報の時代は、Googleが作成したMapReduceペーパーから始まりました。このペーパーでは、MapとCutdownという2つのプリミティブに依存する簡単な製品について説明しています。

これらのプリミティブにより、大量の並列マシン間での並列計算が可能になりました。確かに、並列計算は、MapReduceの時代の直前でも、多数のコンピューター、スーパーコンピューター、およびMPIデバイスを使用して実行可能でした。それにもかかわらず、MapReduceは、より幅広い視聴者が利用できるように設計しました。

ApacheHadoopロゴ

Hadoopは、小売業者に新しい方法を提供し、重要な知識を処理する、オープンなリソースアプリケーションの課題です。（画像の信用履歴：Apache）

Apache Hadoopは、フレームワークのオープンアップソース実装（最初はYahoo!で実装された）として登場しました。これは、オープンソース領域で広く普及しており、より多くの視聴者が利用できます。 Hadoopはさまざまな企業に採用され、いくつかの重要な事実のプレーヤーはHadoopフレームワーク内に起源を持っていました。

Hadoopは、データ処理ハウスの新しいパラダイムについて紹介しました。分散ファイルプロシージャまたはストレージ（HadoopのHDFSなど）でアウトレット情報を小売りする機能であり、後のレベルで問い合わせ/クエリを実行できます。

Hadoopは、リレーショナルデータベースに匹敵するルートを開拓しました。これにより、プログラムを作成する準備ができている人々の明確な「キャスト」によるステージバンドルされたパーソナライズされたプログラミングから始めて、分散ファイル技術の知識に関するSQLクエリを実行します。 Hiveまたはその他のストレージフレームワークとして。

接続済み：大量の情報とHadoopの5つの大きな長所。

バッチ処理はランプアップを受け取ります

Huge Factsの将来のフェーズでは、ApacheSparkの導入に気づきました。 Sparkはさらに並列化を可能にし、バッチ処理を次のレベルに引き上げました。前に指摘したように、バッチ処理は、ファクトをストレージプロセスに配置し、それをルーチンで計算することで構成されます。

ここでの重要なアイデアは、主に過去のデータに基づいて効果を収集するために定期的に（毎日、毎週、毎時）計算を実行しても、事実はどこかにあるということです。これらの計算は一貫して実行されることはなく、開始レベルとエンドポイントがあります。最終結果として、最新の最終結果を得るには、継続的にそれらを再操作する必要があります。

大規模な知識から迅速な知識へ–ストリーム処理の導入

ビッグデータの概念

ストリーム処理アプリケーションは、情報が作成されている間、詳細に一貫して動作し、リアルタイムで結果を出します（写真提供者：Getty）

ビッグインフォメーションの進化におけるこの次の段階では、Apache Stormが最初の非常に使用されたフレームワークのままであるストリーム処理の導入に気づきました（同時に他の研究システムとフレームワークがありましたが、Stormは採用の改善を確認した唯一の人でした）。このフレームワークにより、継続的に（24時間年中無休で）動作できるパッケージを作成できました。

計画とアプリに始まりと終わりがあるバッチ処理戦術とは反対に、ストリーム処理プログラムは事実に基づいて継続的に実行され、事実は生成されますが、リアルタイムで結果を出します。ストリーム処理は、メッセージのストリームのストレージメカニズムとしてApache Kafka（LinkedInで作成）が導入されたことで、さらに高度になりました。 Kafkaは、情報ソースと処理プログラム（Apache Stormなど）を含むバッファーとして機能しました。

Lambda Architectureは、大規模な情報の物語にわずかな迂回をもたらしました。このアーキテクチャは、ストリーム処理の予備的な採用者が、Apache Stormのようなストリーム処理方法が十分に信頼できるとは感じていなかったため、各システム（バッチ処理とストリーム処理）を同時に管理する必要がなかったために生まれました。

Lambda Architectureは、2つのデバイスを組み合わせたものでした。ApacheStormのようなストリーム処理プログラムがリアルタイムの洞察に利用されましたが、その後、アーキテクチャは、経験したことのフロアトゥルースを維持するバッチ処理システムを定期的に使用しました。

Apache Flink –ストリーム処理が利用可能になります

2015年頃、Apache Flinkは、開発者やファクト/分析リーダーに採用された優れたストリーム処理フレームワークになり始めました。

Flinkは最初から適切であり、セマンティクスの直後に非常に堅実な保証を示し、フォールトトレラントな処理エンジンにより、Lambdaアーキテクチャはもはや重要ではなく、ストリーム処理は高度な機会処理と継続的なジョギングに信頼できるとユーザーに信じさせました。ミッションクリティカルなアプリ。 Flinkの信頼できる入手可能な詳細処理フレームワークのために、2つのユニット（バッチ/ストリーム処理）の開発と維持に伴うすべてのオーバーヘッドが冗長になりました。

ストリーム処理は、新しいパラダイムを開始し、応答を求めるスタンスから、詐欺の可能性のある状況の尋問に先立って知識が保存されるという考え方から、最初に考えを確認してから、本物の時間に事実を取得する人への考え方の転換を開始しました。情報が作成されます。説明のために、ストリーム処理を使用すると、24時間年中無休で実行される不正検出ソフトウェアを開発できます。それは実際の時間で状況を取得し、信用履歴カードの詐欺があったときにあなたに洞察を提供し、それが最初の場所で実際に起こるのを防ぎます。これは、全世界で何が起こっているかについての本物の時間の洞察を可能にするため、詳細処理におけるさらに大きな変化の1つである可能性が最も高いです。

オープンリソースファクト処理の進化は、典型的なパターンを経験しました。新しいフレームワークが市場に導入されました（つまり、リレーショナルデータベース、バッチ処理、ストリーム処理）。これは、オーダーメイドのパッケージを作成できる独自の視聴者（プログラマー）が最初に利用できます。知識にアプローチする。

次に、フレームワークにSQLが導入されました。これにより、高度な情報処理用のパッケージを作成したくないオーディエンスがSQLを一般的に入手できるようになります。

ストリーム処理は、ストリーム処理アクティビティの非常によく似たパターンSQLに従い、ストリーミングアプリケーションで広く採用されており、過去に知識のあるパターンを検証します。ストリーム処理市場は、今後数年間で21.6％のCAGRで指数関数的に拡大すると想定されています。この成長とストリーム処理アプリの範囲および使用状況が日ごとに爆発的に増加しているため、この場所での開発はかなりの数であり、ストリーム処理の将来はいつでも変化し進化する自然環境です。

Aljoscha Krettekは、 Vevericaの共同創設者兼エンジニアリングダイレクトです。