事实处理演变：盆栽背景

已发表: 2022-03-14

（开放供应）细节处理是如何发展的？随着数据处理框架变得更加精细，产生的知识的数量和速度每小时都在放大，这些独特的系统是如何随着时间的推移而发展的？

让我们测试一下来回答接下来的两个问题：我们如何处理细节，现在有哪些知识处理技术可供我们使用？我们为什么要处理信息？

当您考虑大量相关的小工具、传感器和网页访问时，这一点就很清楚了。更不用说人类和设备产生的所有细节。很明显，自从我们发明了计算机系统并经历了对信息的获取以来，信息处理就已经无处不在。

在开始…

打孔卡上的旧数据存储

100 年内从打孔纸牌到量子个人计算机，就像从莱特兄弟飞到登月一样。（图片信用评级：盖蒂）

个人计算机的创建产生了对信息和事实处理的明确需求。在这些令人难以置信的早期，笔记本电脑或计算机专家经验丰富，可以创建用于处理信息的定制应用程序，并且这些应用程序很可能保存在穿孔卡上。

接下来的行动带来了汇编语言和其他有目的的编程语言，如 C 和 Java 采用的 Fortran。在史前庞大的事实空间中，软件程序工程师将使用这些语言为独特的信息处理工作编写专门设计的课程。

另一方面，这种细节处理范式只有少数具有编程背景的人才能访问，这阻止了信息分析师或想要系统数据并得出具体结论的更广泛的公司社区更广泛地采用。

下一个纯自然的动作注意到数据库的发明，在 1970 年代前后。标准的关系数据库单元，例如 IBM 的数据库，支持 SQL 并提高了更广泛受众对数据处理的采用。 SQL 是一种标准化且富有表现力的问题语言，读起来很像英语。

它使更多的人能够进入事实处理，因此在较长时间里不再需要依靠程序员来生成独家的情况包和分析数据。 SQL 还扩展了与此类知识处理相关的用途的多样性和形式，例如公司计划、流失成本分析、通用篮子大小、12 个月同比开发数据等等。

重大信息黎明

巨量信息时代始于 Google 制作的 MapReduce 论文，该论文解释了一种依赖于两个原语——Map 和 Cut down 的简单产品。

这些原语允许跨大量并行机器进行并行计算。当然，在 MapReduce 时代之前，通过大量计算机、超级计算机和 MPI 设备进行并行计算是可行的。尽管如此，MapReduce 将其设计为可供更广泛的观众使用。

apache hadoop 徽标

Hadoop 是一项开放的资源应用程序挑战，它为零售商和处理重要知识提供了一种新方法。（图像信用历史：阿帕奇）

Apache Hadoop 作为该框架的开源实现（最初在 Yahoo! 实现）在开源领域广泛存在并可供更广泛的观众使用。 Hadoop 被各种各样的公司采用，一些重要事实参与者都起源于 Hadoop 框架。

Hadoop 在数据处理领域引入了一种新范式：在分散的文件过程或存储（例如 Hadoop 的 HDFS）中零售出口信息的能力，然后可以在以后的级别进行查询/查询。

Hadoop 开辟了一条与关系数据库类似的路线，从阶段开始捆绑个性化编程，由一群已经准备好创建程序的独特“演员”，然后在分布式文件技术中对知识进行 SQL 查询，这种作为 Hive 或其他存储框架。

连接：海量信息和 Hadoop 的 5 大优点。

批处理接收增加

Huge Facts 的未来阶段注意到了 Apache Spark 的引入。 Spark 允许进一步并行化并将批处理提升到以下水平。如前所述，批处理包括将事实放入存储过程中，然后您可以在其上进行例行计算。

这里的关键思想是，尽管您定期（每天、每周、每小时）运行计算以主要基于过去的数据收集效果，但您的事实仍然存在于某个地方。这些计算永远不会始终如一地运行，并且有一个起始级别和一个端点。因此，您必须不断地重新操作它们以获得最新的最终结果。

从海量知识到快速知识——引入流处理

大数据概念

流处理应用程序在细节上始终如一地运行并实时生成结果，同时创建信息（图片来源：Getty）

大信息演进的这个即将到来的阶段注意到流处理的引入，Apache Storm 仍然是第一个被广泛使用的框架（同时结束了其他研究系统和框架，但 Storm 是唯一一个看到改进采用的框架）。该框架使可以编写可以连续运行（24/7）的软件包。

与计划和应用程序有开始和结束的批处理策略相反，流处理程序在事实上持续运行并实时生成结果，尽管事实是产生的。随着 Apache Kafka（起源于 LinkedIn）作为消息流的存储机制的引入，流处理变得更加复杂。 Kafka 充当了涉及信息源和处理程序（如 Apache Storm）的缓冲区。

Lambda 架构在大信息的故事中创造了一个小弯路。这种架构的起源是因为流处理的初步采用者并不认为像 Apache Storm 这样的流处理方法足够可靠，因此它们节省了每个系统（批处理和流处理）同时管理。

Lambda 架构是这两种设备的混合体——像 Apache Storm 这样的流处理程序用于实时洞察，但随后该架构会定期使用批处理系统来维护所发生事件的真实情况。

Apache Flink – 流处理变为可用

大约在 2015 年，Apache Flink 开始成为开发人员和事实/分析领导者采用的优秀流处理框架。

从一开始就适合，Flink 展示了非常可靠的即时语义和容错处理引擎，让用户相信 Lambda 架构不再重要，流处理可以可靠地用于复杂的场合处理和持续运行，任务关键型应用程序。由于 Flink 可靠且可获取的细节处理框架，开发和维护两个单元（批处理/流处理）所带来的所有开销都变得多余。

流处理启动了一种新的范式，并且心态从要求响应的立场转变，即在可能的欺诈情况审讯之前存储知识的位置，转变为您首先检查想法，然后在真实时间获得事实的人。信息被创建。例如，通过流处理，您可以开发一个 24/7 全天候运行的欺诈检测软件。它将实时获取情况，并在存在信用卡欺诈时为您提供洞察力，从而在第一时间阻止它真正发生。这很可能是细节处理中更大的转变之一，因为它将允许对整个世界正在发生的事情进行实时洞察。

开放资源事实处理的演变经历了一个典型的模式，一个新的框架被引入市场（即关系数据库、批处理、流处理），最初可供独特的查看者（程序员）使用，他们可以制作定制的包接近知识。

然后是在框架中引入 SQL，这往往使那些真的不想为复杂的信息处理编写包的受众普遍获得它。

流处理遵循非常相似的模式 SQL 用于流处理活动，在流应用程序中被广泛采用，这验证了我们过去了解的模式。预计流处理市场将在未来几年以 21.6% 的复合年增长率呈指数级增长。随着这种增长以及流处理应用程序的范围和使用环境的爆炸式增长，这个地方的发展是相当多的，流处理的未来是随时变化和不断发展的自然环境。

Aljoscha Krettek 是 Veverica 的联合创始人和工程总监。