开放式数据湖仓，释放数据分析潜力无限

开放式数据湖仓，释放数据分析潜力无限

（2025年4月5日更新）

Cloudera 地球上最大的数据湖由客户运行。这些湖泊是大规模数据分析的关键任务 (BI) 与机器学习用例，包括企业数据仓库，提供动力。近年来，数据湖仓据湖仓库一词来描述这种对数据湖中数据进行表分析的架构模式。在匆忙进入这个术语的过程中，许多制造商忽略了数据架构的开放性是其持久性和持久性的保证。

芯片采购网专注于整合国内外授权IC代理商现货资源，芯片库存实时查询，行业价格合理，采购方便IC芯片，国内专业芯片采购平台。

数据仓库和数据湖

数据湖和数据仓库将各种类型的海量数据统一到一个中心位置。但有一个完全不同的架构世界观。数字仓库是为了SQL 对垂直集成进行分析，优先考虑数据湖 SQL 其他分析方法的灵活性。

为了既有鱼又有熊掌-数据湖分析的灵活性，又有简单快捷的数仓 SQL，企业经常部署数据湖补充数据仓库，提取、转换和加载数据 (ETL) 或 ELT 管道的最后一步是让数据湖为数字仓库系统提供数据。在这样做的过程中，他们接受了仓库中数据的锁定。

但是有一个更好的方法：使用它 Hive 元存储是过去十年数据平台上一个意想不到的好产品。随着用例的成熟，我们可以看到高效的互动 BI 对数据的需求进行分析和事务语义修改。

数据湖仓的迭代

第一代 Hive元存储试图在数据湖上有效运行 SQL 性能考虑。它提供了描述数据湖结构的数据库、模式和表的概念 BI 该工具可以有效地充分利用数据。它添加了描述Espressif代理支持基于成本的优化器、动态分区切割和数据逻辑和物理布局的元数据 SQL 一些关键性能分析改进。

第二代 Hive元存储增加了正确的使用 Hive ACID 支持事务更新。虽然数据湖仓库还没有正式命名，但它已经开始活跃起来。事务启用了持续摄入、插入/更新/删除（或合并）的用例，从而打开了从其他数字仓库系统到数据湖的查询、功能和迁移。这对我们的许多客户都很有价值。

Delta Lake该项目采用不同的方法来解决这个问题。Delta Lake为数据湖中的数据增加了事务支持。数据管理可以进行，这给数据湖带来了运行数仓分析的可能性。

渐渐地，在某个时刻，数据湖仓库这个词架构模式而产生。我们相信湖仓库是简单定义这种模式的好方法，并很快在客户和行业达成共识。

开放数据湖仓满足互操作需求

近年来，随着新数据类型的诞生和新数据处理引擎的出现，为了简化分析，企业所期望的两全其美确实需要分析引擎的灵活性。如果需要管理大量有价值的数据，企业必须能够开放地选择不同的分析引擎，甚至供应商。

湖仓模式在实施过程中存在严重矛盾：虽然数据湖是开放的，但湖仓不是。

在能够添加 Impala、Spark 等发动机，Hive始终遵循元存储 Hive先进化。Delta lake是Spark主要演变；如果客户想自由选择不同的引擎而不仅仅是表格式，他们的选择是非常有限的。

客户从一开始就要求更多。格式更多，引擎更多，互操作性更强。Hive 多个引擎和多个存储选项使用元存储。 Hive 和 Spark，还有 Presto、Impala 等等。Hive元存储是支持这些用例的有机进化，因此集成通常非常复杂，容易出错。

为满足相互操作的需要而设计的开放数据湖仓库从根本上解决了这一架构问题。它会让所有被困在一个平台上的人感到不安，但社区驱动的创新可以帮助解决现实世界的问题，帮助使用类似的最佳工具，并以务实的方式克服供应商的锁定。

开放湖仓Apache Iceberg的诞生

Apache Iceberg 从一开始，其目标就是在云原生规模上轻松实现多个分析引擎的相互操作。这创新的诞生地 Netflix 需要将 100 PB 规模的 S3 数据湖建在数字仓库中，这可能是最好的例子。云原生表格式从其创建者开源到 Apache Iceberg 中。

Apache Iceberg 真正的超级力量是它的社区。在过去的三年里，Apache Iceberg 社区蓬勃发展，增加了一系列令人惊叹的优秀整合：

· 数据处理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink

· 各种文件格式：Parquet、AVRO、ORC

· 社区大型用户：Apple、LinkedIn、Adobe、Netflix、Expedia 等

· AWS Athena、Cloudera、EMR、Snowflake、腾讯，阿里巴巴，Dremio、Starburst 的托管服务

这个多元化社区蓬勃发展的原因是数千家公司的集体需求，以确保数据湖能够演变成包含数据的仓库，并保持跨引擎分析的灵活性和开放性。这使得开放的湖泊仓库成为可能：为未来提供无限的分析灵活性。

Cloudera拥抱Iceberg模式

在 Cloudera，我们为我们的开源基础感到自豪，并致力于社区贡献。自 2021 多年来，我们一直在成长 Iceberg 社区在 Impala、Hive、Spark 和 Iceberg 数百项贡献。我们扩展了 Hive 元存储将集成到我们的许多开源引擎中，以充分利用它 Iceberg 表。2022 年初，我们在 Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 技术预览，使 Cloudera 客户可以在我们的数据仓库、数据工程和机器学习服务中实现 Iceberg 模式和时间旅行能力。

我们的客户总是告诉我们，无论是现代的 BI、AI/ML、数据科学更多，分析需求发展迅速。选择是由 Apache Iceberg 湖仓提供支持，让企业自由选择分析。