云颠覆了细节转型
已发表: 2021-12-28提取、完全转换和加载 (ETL) 的通用信息转换方法目前正在以一种由云系统支持的时尚方式迅速转变。
云的支出减少、适应性和可扩展性以及云知识仓库的巨大处理能力推动了一个主要变化:在转换之前将所有事实加载到云中的能力。 这一发展意味着单独的 ETL 已被转换为提取、加载和完全转换或 ELT。
ELT 提供了许多奖励,以及保留事实粒度,最大限度地减少对昂贵的应用程序工程师的需求,并显着减少项目周转情况。
信息转换:
数据对于企业来说至关重要,他们使用它来识别客户、确定新的前景并通过关键任务和最新数据帮助决策者。 但是,要评估数据,首先必须对其进行结构化。 它希望被理解,以便可以将其纳入仪表板、体验和预测风格。
挑战在于,未经处理的事实并不能呈现为格式奇特、可用的数据。 这就是数据转换的用武之地。凌乱的原始细节希望被重新加工成现实的表示,以帮助人们实现不同的抱负。
这种转换可以在事实加载到它的位置之前进行,通常是一个细节仓库,或者稍后
标准 ETL:
在传统的 ETL 中,信息在加载之前就被重新建模为可供考试的知识模型。 正如 Fivetran 的 Charles Wang 指出的那样,“将转换与加载相结合可以保留存储和计算手段,但会给信息工程工作流程带来极大的脆弱性。 这也意味着用于转换的软件包通常是使用诸如 Python 和 Java 之类的脚本语言创建的。 此外,ETL 中的转换可能需要提供出色的复杂编排服务,使用 Airflow 之类的工具。”
ETL 通常还包括提供非常棒的定制代码。 因此,传统 ETL 的主要问题是可访问性。 稀缺、高价意味着工程师和科学家希望参与其中。
另一个困难涉及周转时机。 涉及本地信息仓库的传统 ETL 处理通常特别耗时。 使用 ETL 还涉及定期的日常维护,并且会引入复杂性。
现代转型技术:
存储通常价格高得令人望而却步。 ETL 对企业的回报是他们不必将所有知识加载到最终位置。 现在,云系统已经改善了这一点。 我们看到南非的云采用率有了巨大的提高,工程费用也在显着下降。 较低的费用使企业可以将所有信息加载到云中,而无需意识到存储费用。
这表明,在当今的 ELT 工作流程中,原始知识在加载后立即被重新建模为完全准备好检查的细节设计。 在仓库中,可以使用 SQL 重新加工知识,由于其直观的英语相关语法,可以被更广泛的人应用。 因此,组织的懂 SQL 的用户可以执行转换,而不仅仅是具有编码知识的用户。
如今的信息转换利用了基于云的资源和系统。 这些共同构成了所谓的现代事实堆栈(MDS)。
这个 MDS 的核心是一个高效的云知识系统,通常是一个云仓库,也可能涉及细节湖。 知识是从包括数据库、Web 程序和 API 在内的一系列资源程序加载到其中的。 为此,使用信誉良好的转换层将未经处理的知识转换为查询所有集合的数据集。 最后,协作式小型商业智能和可视化解决方案允许企业与知识进行交互,并为信息公司的结论得出可操作的见解。
在他的短文中,Wang 指出 MDS 通过以下阶段汇集信息:
- 资源——来自运营数据库、SaaS 应用程序、事件跟踪的详细信息
- 知识管道——从资源中提取事实并将其集中到信息仓库中,有时对其进行规范化
- 数据仓库——将事实存储在为分析优化的关系数据库中
- 知识转换设备——一种依赖于 SQL 的软件,它利用源数据在信息仓库中建立新的事实模型
- 分析资源——用于生成故事和可视化的工具,例如小型商业智能平台
细节仓库内的改造:
转换是定制的,以生成组织必须用于分析的某些信息设计。 现代 ELT 将提取和加载与转换分开。 这可以使公司自动化和外包数据集成方法的提取和加载阶段。 然后,当详细信息已经在仓库中时,他们可以使用基于 SQL 的重点转换设备。
ELT 的一个关键优势是事实基本上保持在粒度类型,因为它在加载之前没有经过大的转换。 使用通用 ETL,企业可能在加载之前已经聚合了不同的知识,因此完全放弃了第一个粒度。
新的 ELT 架构还提供了大量的功能、灵活性和价格优势。 加载速度很快,组织可以将他们所有的知识保存在信息仓库中,即使是他们目前可能不需要的知识。
“粗略地说,仅在信息仓库中重新设计的信息样式可以是视图或物化视图,”Wang 指出。 他继续明确表示,每次有人访问结账时,数据仓库都会运行查询以返回相关信息。 这些视图未保存。 “在一个零延迟和不受限制的计算手段的理想地球上,所有的转换基本上都是视图,”他补充道。
相比之下,物化的景象被保存在磁盘上,因为从一张巨大的桌子或复杂的问题中动态创建的视图可能会导致细节仓库阻塞。
乙肝:
在大多数情况下,ELT 可能应该被称为 EtLT,因为一些轻量级的转换或规范化通常在加载知识之前进行。 这消除了冗余、重复和派生值。 它还将表格从事实组织成最清晰可行的相互关系集,以便分析师可以方便地解释资源应用程序的基础数据产品,并相应地构建新的评估准备信息类型。
“如果外包,则提取和装载管道的输出需要标准化,自动 ELT 才能完成工作,”王说。 “为了有效地规范来自资源的信息,您必须对供应应用程序的基本操作和细节模型有深刻的了解。 规避这一挑战的理想方法是将提取和加载外包给一个与该特定资源的信息工程进行密集接触的团队。”
IT 专家, Keyrus