Apache Iceberg v3: Deletion Vectors, VARIANT-Typ und der sichere Upgrade-Pfad
trending_up Trend: aws

Apache Iceberg v3: Deletion Vectors, VARIANT-Typ und der sichere Upgrade-Pfad

calendar_month 26. Juni 2026

Apache Iceberg v3 ist bereit für den Unternehmenseinsatz

Mit der Veröffentlichung von Apache Iceberg 1.11.0 am 19. Mai 2026 ist das lang erwartete Tabellenformat Iceberg v3 offiziell bereit für den Produktionseinsatz. Dieses Release bringt signifikante Leistungssteigerungen und funktionale Erweiterungen, die das Management von Data Lakehouses grundlegend verbessern. Zu den wichtigsten Neuerungen gehören binäre Deletion Vectors, der native VARIANT-Datentyp, default Spaltenwerte sowie ein verbessertes Row-Level Lineage Tracking.

Führende Lakehouse-Anbieter und Cloud-Plattformen wie Databricks, Dremio, Starburst, AWS und Google Cloud haben bereits ihre Unterstützung und detaillierte Upgrade-Leitfäden für das v3-Format angekündigt.


Die wichtigsten Neuerungen in Apache Iceberg v3

  1. Binäre Deletion Vectors (Löschvektoren): In Iceberg v2 führten Zeilenaktualisierungen und -löschungen in Merge-on-Read-Tabellen häufig zu hohem Overhead durch das Schreiben kompletter Positions-Löschdateien. Iceberg v3 ersetzt diese durch hocheffiziente, binäre Bitmaps (Löschvektoren) pro Datendatei. Dies reduziert den Lese-Overhead bei CDC-Pipelines (Change Data Capture) drastisch und beschleunigt Abfragen erheblich.

  2. Nativer VARIANT-Datentyp: Die Einführung des VARIANT-Typs ermöglicht die performante Speicherung strukturierter JSON-Daten, ohne dass diese explizit flachgeklopft (flattened) werden müssen. Dadurch bleibt die Flexibilität halbstrukturierter Daten gewahrt, während die Abfrageleistung optimiert wird.

  3. Geometrische Typen (GEOMETRY/GEOGRAPHY): Mit der nativen Unterstützung für geometrische Datentypen können nun räumliche Analysen und Geospatial-Joins direkt auf Iceberg-Tabellen ausgeführt werden, was neue Anwendungsfälle für IoT- und Geodaten erschließt.

  4. Default-Spaltenwerte: Bei Schema-Evolutionen müssen Tabellen nicht mehr aufwendig mit Backfills aktualisiert werden. Fehlende Werte werden stattdessen automatisch durch die definierten Default-Werte ersetzt.

  5. Row-Level Lineage: Die Nachverfolgbarkeit von Daten auf Zeilenebene stärkt die Data Governance und erleichtert die Einhaltung von Compliance-Vorgaben in stark regulierten Branchen.


Der sichere Upgrade-Pfad für Unternehmen

Obwohl Iceberg v3 abwärtskompatibel konzipiert ist, sollten Unternehmen die Migration sorgfältig planen:

  • Testen in Testumgebungen: Führen Sie das Upgrade der Tabelleneigenschaften (Migration der format-version) zunächst auf unkritischen Testdaten durch.
  • Engine-Kompatibilität prüfen: Stellen Sie sicher, dass alle genutzten Query Engines (z. B. Spark 3.5+, Trino/Starburst, Dremio) für den Lese- und Schreibzugriff auf v3-Tabellen bereit sind.
  • Schrittweise Umstellung: Da die Format-Version ein Tabellenattribut ist, können Sie Tabellen inkrementell migrieren, statt das gesamte Lakehouse auf einmal umzustellen.

Quellen

  1. AWS announces support for Apache Iceberg V3 deletion vectors and row lineage
  2. Apache Iceberg v3: What Changed and How to Upgrade Safely
  3. Databricks AWS Official Docs
  4. Azure Databricks Official Docs
  5. Dremio Blog
  6. Starburst Blog
  7. Google Cloud Lakehouse Docs