Advertisement

数仓:为什么说 ETL 的未来不是 ELT,而是 EL (T)

阅读量:

这篇文章探讨了传统ETL技术的局限性以及如何通过解耦提取与加载(Extract-Load)过程来提升数据分析效率的技术趋势。传统ETL方法由于其线性、静态的特点,在灵活性、可扩展性和自主性方面存在显著缺陷:它要求数据分析师提前确定分析目标和数据转换方式,在复杂的数据集成场景下容易导致调整困难、数据不一致等问题,并且难以满足实时性和多样化的数据分析需求。
随着云计算和大数据技术的发展,“E‘LT’”模式逐渐成为主流:通过将数据转换过程从ETL中分离出来(即“E‘LT’”),实现了对原始数据直接加载的能力,并允许数据分析人员根据需要进行灵活的数据转换和标准化处理。“E‘LT’”模式不仅提升了分析效率和安全性,在商业智能工具的支持下还推动了跨组织数据分析能力的发展。
未来,“E‘T(L)’”技术将进一步整合商业分析与机器学习两大应用场景:通过解耦提取与加载过程与数据转换分离,并结合统一的数据基础设施(如统一的数据仓库与数据湖架构),实现对更多连接器的支持以及标准化工具的应用。“E‘T(L)’”模式将为行业提供更强大的数据分析生态系统,并加速企业向智能化转型的步伐。

文章目录

    • 一、简介
    • 二、传统ETL的问题
    • 三、为什么EL'T'比E'T'L更好
    • 四、为什么 EL (T)是未来

一、简介

过去十年间, 我们从数据存储到数据管理这一领域发生了根本性转变, 进入了一个全新的E'LT'时代, 像Fivetran这样的企业正在引领这一变革。尽管如此我们仍坚信这一变革不会就此结束……ELT 实际上是我们在EL(t)阶段与EL解耦的心理过渡阶段, 深入探究其背后的原因可能会揭示未来可能出现的关键转折点。

在这里插入图片描述

二、传统ETL的问题

从历史发展来看,在数据处理领域中存在一种称为ETL的数据管道流程体系。这种体系的主要特征在于按照统一的步骤对数据进行采集、转换与存储至仓库或数据湖中。然而该流程体系存在明显的缺陷主要表现为以下几点:一是缺乏灵活性与直观性并且无法实现自助操作二是该流程体系在实际应用中往往导致复杂度较高的问题三是难以适应快速变化的业务需求

  • 缺乏灵活性
    可以说,在ETL的过程中存在一种机械化的特性。在这种框架下,在线事务处理(OLAP)查询的结果往往需要经过预定义的操作步骤才能被提取出来并呈现给用户。由此可见,在这种模式下, 数据分析师必须预先规划好如何处理数据, 以及在必要时进行哪些操作, 才能保证生成报告的质量和效率. 不论是微小的改动还是较大的优化, 都会耗费大量的人力物力. 而且这些改动还可能对后续步骤的数据接收者造成干扰.

在每次ETL过程中,在进行Data Transformation时,
一些原始信息变得更加模糊或难以理解。
在这种情况下,
分析人员通常只能访问经过处理的数据片段,
而无法全面了解整个数据库中的全部信息。

就采用一种不科学的数据处理方式进行操作,则会导致分析师得出的结果出现不可靠的情况。

也许有一些数据分析师也曾遭遇过类似的问题。 在不同的环节或系统的数据对接过程中,经常会遇到检查双方数据的一致性和准确性的情况。 这项工作耗费时间和精力,并且会带来合作双方在沟通与信任方面的挑战。对于关键及敏感的数据信息,则有部分企业建立了专门的数据核对小组来处理这些问题。

最后指出构建基于ETL的数据管道往往超出了数据分析人员的技术能力范围。这通常需要专业的工程师紧密配合,并负责从各个数据源中提取和转换额外代码以完成数据处理流程。

为了规避搭建上述复杂的大型项目框架,在实际操作中,数据分析师会多措并举地应对挑战。具体而言,在初期阶段会基于短期且时间密集的工作基础上完成分析任务并输出报告。

三、为什么EL’T’比E’T’L更好

传统的自建计算与存储体系具有较高的成本,在云计算时代云数据中心建设变得越来越普遍的情况下,在线分析处理(OLAP)技术的应用场景逐渐扩展。在这样的背景下,在最终使用原始的数据(L)之前,并不需要执行任何复杂的预处理操作(T)。实际情况下将数据转换操作放置于数据加载操作之后,在这个顺序安排下赋予了分析师一种更为自主的工作方式。

在升级至E‘LT’后, 分析师能够首先导入原始数据集,并随后完成数据转换。 与旧有模式相比,E‘LT’显著提升了数据分析效率和决策速度。 以往采用E‘TL’模式时, 数据分析师必须首先确定将生成何种形式的分析报告, 并在此基础上选择适用的数据建模方法。

采用E'_LT_模式时,则与其遵循传统模式相反地操作:将基础原始数据直接导入至一个统一的数据存储系统中,并形成一个统一的真实数据来源。这种情况下,在决策支持过程中赋予分析人员更高的自主权:他们不仅可以根据实际需求进行数据分析调整,并且能够随时追溯至这一统一的事实来源。无需担心由于数据分析转换可能带来的一致性问题。采用E'_LT_方案则可显著提升商业智能系统的灵活性与安全性。

  • E'TL'显著提升了组织的数据素养。
    在整合云上的商业智能工具(包括Looker、Mode和Tableau)的应用中,E'LT'方法增强了对跨组织公共分析集的支持获取能力。
    甚至非技术背景用户也可轻松获取商业智能仪表盘上的信息。

虽然 Airbyte 是我们坚定的支持者之一。然而,在 E′ LT 中仍无法实现完全的数据整合,并且该框架本身也存在技术上的不足。我们主张将 EL 和 t 分离开发。

四、为什么 EL (T)是未来

整合了大数据存储系统后发现,在探讨这一技术演进过程时会遇到诸多挑战。安德森·霍罗威茨完成了一份具有高度价值的研究,在与行业领先者进行了深入访谈后提出了新的架构模型。

在这里插入图片描述

数据基础设施在高层次上有两个用途:

  • 商业分析场景。 即基于数据分析为其提供数据驱动的决策支持
    • 运营场景, 即通过机器学习算法在与客户直接交互的应用程序中应用数据智能技术

围绕这些广泛的用例,两个平行的生态系统已经发展起来。

  • 数据仓库被视为分析生态系统的关键组成部分。
    大多数存储系统采用标准化的组织架构来存储数据。
    这些系统旨在从企业关键绩效指标中提取有价值的信息。
    传统上依赖于SQL技术实现功能(但随着Python的普及逐渐扩展)。
  • 数据湖被视为支持企业运营的核心基础设施。
    通过保持原始形式的数据存储特性,
    它赋予系统处理复杂任务的能力,
    并提供足够的扩展性以满足日益增长的需求。
    这些平台能够支持多种编程语言(包括Java/Scala、Python、R以及SQL等)。

真正有趣的是现代数据仓库和数据库逐渐趋向于一致——它们包括商品存储本地水平扩展半结构化数据类型Alice在交易中的应用以及交互式的SQL查询等特性。

这可能引起您的兴趣:数据仓库与数据湖的发展趋势及其潜在融合方向。在统一平台下实现互操作性或替代关系的可能性值得探讨;同时,在支持业务流程方面发挥的作用也不容忽视。

该方法在时间维度上实现了精准预测,在满足预测精度的前提下显著提升了计算效率和资源利用率

对于运营场景而言,在线运营数据具有无可替代的重要性。这些数据往往承载着企业的核心经营信息与关键决策依据。值得注意的是,在不同的业务模块中可能存在不同的需求与特点:一部分业务模块可能涉及特定的数据转换流程(如实时数据分析模块),而另一些则无需进行任何数据转换(如历史数据分析模块)。
在商业分析领域中,在某些关键阶段需要对输入数据进行标准化处理。经过对EL和T流程的分离处理后,在执行规范化时可灵活选择合适的标准化工具。其中一种常见的工具是DBT(Data Transformation Language)。值得指出的是,在实际应用中这一技术已经被广泛认可并得到了良好的支持:DTB已经成为开源领域中的标准工具,并且Fivetran已成功集成该技术以简化操作流程。

EL模式具有更高的扩展速度,并对生态系统的整体产生显著影响。
数据转换过程贯穿于所有的边界场景。
对于任意公司内部的具体需求和每个工具而言,
都遵循统一规范的方式形成。

由于EL(抽取、加载)与t(转换)成功脱钩实施,在此背景下行业得以逐步引入更多样化且低频次的连接器方案。包括采用频率低、种类多样的连接器方案,在Airbyte中我们正致力于打造一个专业的‘预装式连接器工厂’。

此外,请参照前述内容,在这种情况下系统可为数据团队提供更便捷的生态系统整合方式。您逐渐认识到一套开源标准能够满足所有需求。从某种程度上说,在未来构建数据架构时可能会遵循以下模式:

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~