クラウドは細部の変革を頭に浮かび上がらせます
公開: 2021-12-28抽出、完全変換、および読み込み(ETL)の一般的な情報変換方法は、現在、クラウドシステムによって可能になるファッショナブルなひねりを加えて急速に頭角を現しています。
クラウドの支出の削減、その適応性とスケーラビリティ、およびクラウドナレッジウェアハウスの巨大な処理能力により、主な変化がもたらされました。それは、変換する直前にすべてのファクトをクラウドにロードする機能です。 この開発は、ETLのみが変換され、抽出、ロード、完全変換、つまりELTに変換されたことを意味します。
ELTは、事実の粒度を保持するとともに、多くの見返りを提供し、高価なアプリケーションエンジニアの必要性を最小限に抑え、プロジェクトのターンアラウンド状況を大幅に軽減します。
情報変換:
データは、クライアントを認識し、新しい見込み客を決定し、ミッションバイタルで最新のデータを使用して意思決定者を支援する企業にとって重要です。 ただし、データを評価するには、最初にデータを構造化する必要があります。 ダッシュボード、エクスペリエンス、予測スタイルに取り込むことができるように、理解する必要があります。
課題は、未調理の事実が素晴らしくフォーマットされた使用可能なデータとして提示されないことです。 それがデータ変換の出番です。乱雑な生の詳細は、人々が明確な野心を達成するのを支援する現実の表現に作り直されることを望んでいます。
この変換は、ファクトがその場所(通常は詳細ウェアハウス)にロードされる前、または後で行うことができます。
標準ETL:
従来のETLでは、情報はロードされる直前に検査可能な知識モデルに改造されます。 FivetranのCharlesWangが指摘するように、「変換と正確なステップへのロードを組み合わせると、ストレージと計算手段を維持できますが、情報エンジニアリングワークフローに非常に脆弱性が生じます。 これは、変換に使用されるソフトウェアパッケージが、通常、PythonやJavaなどのスクリプト言語を使用して作成されていることも意味します。 さらに、ETLの変革により、この種のAirflowなどの機器を使用した高度なオーケストレーションの素晴らしい提供が必要になる可能性があります。」
ETLには通常、カスタムメイドのコードのすばらしい提供も含まれます。 したがって、従来のETLの主要な問題の1つは、アクセシビリティです。 希少で高額なのは、エンジニアや事実科学者が関与したいというこの種のことを意味します。
追加の難しさは、ターンアラウンドの機会に関係します。 オンプレミスの情報ウェアハウスに関連する従来のETL処理は、通常、特に時間がかかります。 ETLの操作には定期的な定期的なメンテナンスも含まれ、複雑になる可能性があります。
変革への現代のテクニック:
ストレージは通常、法外に高額です。 企業にとってのETLの見返りは、すべての知識を最終的な場所にロードする必要がなかったことです。 これは現在、クラウドシステムによって改善されています。 南アフリカではクラウドの採用が大幅に改善されており、エンジニアリングの料金は著しく減少しています。 費用が少ないため、企業はストレージ費用を意識することなく、すべての情報をクラウドにロードできます。
これは、現在のELTワークフローでは、生の知識が検査に改造されていることを示唆しています。つまり、ロードされた直後に完全に準備が整った詳細設計です。 倉庫にいるときは、SQLを利用して知識を作り直すことができます。SQLは、直感的な英語に依存する構文のおかげで、非常に幅広い人々が適用できます。 その結果、変換は、コーディングのノウハウを持つユーザーだけでなく、組織のSQLに精通したユーザーが実行できます。
最近の情報変換では、クラウドベースの主にリソースとシステムを活用しています。 これらは集合的に、現代のファクトスタック(MDS)と呼ばれるものを構成します。
このMDSの中心となるのは、非常に効果的なクラウド知識システムであり、通常は詳細な湖を含むことができるクラウドウェアハウスです。 知識は、データベース、Webプログラム、APIなどのさまざまなリソースプログラムから読み込まれます。 これを行うために、評判の良い変換レイヤーを利用して、未調理の知識をクエリに変換します-すべてのセットのデータセット。 そして最後に、コラボレーティブなスモールビジネスインテリジェンスおよび視覚化ソリューションにより、ビジネスは知識と相互作用し、情報企業の結論に実用的な洞察を引き出すことができます。
詳細変換のスペルアウトとして識別された彼の短い記事で、Wangは、MDSが次の段階で情報を漏斗していることを考慮に入れています。
- リソース–運用データベース、SaaSアプリケーション、機会追跡からの詳細
- 知識パイプライン–リソースから事実を抽出し、それを情報ウェアハウスにまとめ、場合によっては正規化します
- データウェアハウス–分析用に最適化されたリレーショナルデータベースにファクトを保存します
- 知識変換デバイス–ソースからのデータを使用して情報ウェアハウス内で新しいファクトモデルを作成するSQL依存のソフトウェア
- 分析リソース–ストーリーと視覚化を生成するためのツール。これらの種類の小規模ビジネスインテリジェンスプラットフォーム
詳細ウェアハウス内の変換:
変換は、組織が分析のために持つ必要のある特定の情報設計を生成するようにカスタマイズされます。 最新のELTは、抽出とロードを変換から分離します。 これにより、企業はデータ統合方法の抽出フェーズとロードフェーズを自動化してアウトソーシングすることができます。 その後、詳細がすでにウェアハウスにあるときに、焦点を絞ったSQLベースの変換デバイスを使用できます。
ELTの重要な利点は、ロードされる前に大きな変換が行われていないため、ファクトは基本的に詳細なタイプのままであるということです。 一般的なETLを使用すると、企業は読み込み前に個別の知識を集約している可能性があるため、最初の粒度が完全に失われます。
新しいELTアーキテクチャは、実質的な機能、柔軟性、および価格面でのメリットも提供します。 読み込みは迅速であり、組織は、現在持っている必要がない可能性のある知識であっても、情報ウェアハウスにすべての知識を保持できます。
「大まかに言えば、情報ウェアハウスだけで作り直された情報スタイルは、ビューまたはマテリアライズドビューになります」とWang氏は述べています。 彼はさらに、人がチェックアウトにアクセスするたびに、データウェアハウスがクエリを実行して関連情報を返すことを明確にしました。 これらのビューは保存されません。 「レイテンシーがゼロで計算手段が制限されていない理想的な地球では、すべての変換は基本的にビューになります」と彼は付け加えます。
対照的に、巨大なテーブルや洗練された質問からその場で作成されたビューが詳細倉庫を窒息させる可能性があるため、実体化された照準器はディスクに保存されます。
EtLT:
ELTは、ほとんどのシナリオでおそらくEtLTと呼ばれる必要があります。これは、知識が読み込まれる前に、軽量の変換または正規化が実行されることが多いためです。 これにより、冗長性、重複、および派生値が排除されます。 また、アナリストがリソースアプリの基盤となるデータ製品を便利に解釈し、それに応じて新しい評価用の情報タイプを構築できるように、ファクトから実行可能な最も明確な相互関係のセットにテーブルを編成します。
「外部委託の場合、抽出パイプラインとロードパイプラインの出力を標準化する必要があります。自動ELTを使用すると、作業を完了できます」とWang氏は述べています。 「リソースからの情報を効果的に正規化するには、供給アプリケーションの基本的な操作と詳細モデルについての鋭い知識が必要です。 この課題を回避する理想的な方法は、特定のリソースの情報エンジニアリングに集中的に遭遇したチームに抽出と読み込みをアウトソーシングすることです。」
ITスペシャリスト、 Keyrus