Apache Iceberg：大数据分析表的统一存储格式

张

张建站

2026/6/25 16:11:10

10分钟阅读

文章目录Apache Iceberg大数据分析表的统一存储格式Apache Iceberg大数据分析表的统一存储格式Apache Iceberg 是 Apache 基金会旗下的开源项目目前在 GitHub 上获得了 8,983 个 Star。Iceberg 定义了一种高性能的大数据分析表格式。它把 SQL 表的可靠性和易用性带到了大数据领域让 Spark、Trino、Flink、Presto、Hive、Impala 这些引擎可以同时安全地操作同一张表。背景在大数据场景下不同计算引擎往往各自维护一套表元数据导致数据不一致、写入冲突、读取结果不可重复等问题。Iceberg 的出现就是为了解决这些问题。它在文件系统之上加了一层表格式抽象记录了数据文件的位置、分区信息、schema 演变历史和快照版本。有了这层抽象上层引擎不需要关心底层文件的组织方式直接通过 Iceberg 提供的 API 读写数据。跨引擎共享同一张表变成了标准操作。核心能力Iceberg 支持 ACID 事务。写入操作要么全部完成要么全部回滚不会出现中间状态。这意味着多个写入者可以同时操作同一张表而不会互相干扰。Schema 演变方面Iceberg 允许用户在不重写数据的情况下添加、删除或重命名列。分区也可以调整已有的数据文件不需要重新组织。Iceberg 维护了完整的快照历史。用户可以从任意快照点读取数据实现时间旅行查询。这在数据回溯和审计场景下很有用。文件格式上Iceberg 支持 Parquet、ORC 和 Avro 三种存储格式用户可以根据场景选择。多引擎兼容Iceberg 的设计目标之一就是跨引擎兼容。当前支持的引擎包括Apache Spark通过 Datasource V2 API 集成每个 Spark 版本有对应的子模块Apache Flink提供专门的集成模块Apache Hive通过 InputFormat 方式接入Trino / Presto各项目自行维护 Iceberg 连接器每个引擎集成模块都提供了 runtime jar内置了所有依赖避免版本冲突。模块结构Iceberg 的核心 Java 库按功能拆分成了多个模块iceberg-common公共工具类iceberg-api对外公开的 API 接口iceberg-coreAPI 的实现包含 Avro 数据文件支持是其他引擎集成的主要依赖iceberg-parquetParquet 文件读写支持iceberg-orcORC 文件读写支持iceberg-arrow将 Parquet 数据读入 Arrow 内存格式iceberg-hive-metastore基于 Hive Metastore Thrift 客户端的表元数据管理实现多语言实现除了 Java 参考实现社区还在维护其他语言的版本Go 语言实现Python 实现PyIcebergRust 实现C 实现不同语言的实现让 Iceberg 的使用场景从 JVM 生态扩展到了更广泛的领域。构建与开发Iceberg 使用 Gradle 构建要求 Java 17 或 21。常用命令./gradlew build# 构建并运行测试./gradlew build-xtest# 跳过测试./gradlew spotlessApply# 自动修复代码格式测试依赖 Docker 环境。在 macOS 上使用 Docker Desktop 时可能需要手动创建 Docker socket 的符号链接。总结Iceberg 解决了大数据场景下多引擎共享表数据的核心问题。它通过表格式抽象层统一了不同计算引擎对数据的访问方式同时提供了事务支持、schema 演变和时间旅行等能力。对于需要在多个引擎之间共享数据的团队来说Iceberg 是一个成熟的选择。式抽象层统一了不同计算引擎对数据的访问方式同时提供了事务支持、schema 演变和时间旅行等能力。对于需要在多个引擎之间共享数据的团队来说Iceberg 是一个成熟的选择。

ArcObjects SDK 10.8深度解析：从3D建模到地理可视化的专业级GIS开发方案

ArcObjects SDK 10.8深度解析：从3D建模到地理可视化的专业级GIS开发方案【免费下载链接】arcobjects-sdk-community-samples This repo contains the source code samples (.Net c#, .Net vb, and C) that demonstrate the usage of the ArcObject SDK. 项目地址…...

2026/6/25 16:04:26 阅读更多 →

ArduSub水下机器人树莓派设置全指南：从硬件连接到MAVLink通信

1. 项目概述：为什么树莓派是ArduSub水下机器人控制系统的“心脏”ArduSub入门教程-树莓派设置——这八个字背后，不是简单地把一张SD卡刷进树莓派就完事了。它实际指向一个真实、可落地的水下机器人控制系统搭建起点：用树莓派作为地面站与水下…...

2026/6/25 16:04:02 阅读更多 →

2026年5月亲测！企业短视频服务公司的惊人效果

企业短视频服务行业分析：云度传媒的创新与突破行业痛点分析在当今数字化时代，企业短视频服务领域面临着诸多核心技术挑战。据相关数据显示，超过70%的企业表示在短视频制作过程中，面临着创意匮乏、制作周期长、成本高昂等问题。同时…...

2026/6/25 15:51:03 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/24 0:29:23 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/24 11:26:14 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/24 20:43:29 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/24 0:29:22 阅读更多 →