Azure Databricks Data Engineering: Fünf große Updates
🔄 Update — 15. Juni 2026: Ankündigungen von der FabCon 2026 und Standard-Tier-Abkündigung
Azure Databricks hat wichtige Neuerungen von der FabCon 2026 vorgestellt, darunter die allgemeine Verfügbarkeit (GA) von Lakebase, Lakeflow und den Genie GenAI-Funktionen. Zudem leitet die Plattform die offizielle Abkündigung des Standard-Tiers ein, um sich künftig vollständig auf Premium- und Enterprise-Funktionen zu fokussieren. Diese Änderungen markieren einen bedeutenden Schritt in der Weiterentwicklung und strategischen Ausrichtung des Dienstes.
Was ist neu?
- Lakebase GA & Lakeflow: Lakebase und Lakeflow sind nun allgemein verfügbar (GA) und bieten integrierte, serverlose Daten-Ingestion und optimierte Verarbeitungs-Pipelines.
- Genie GenAI-Integration: Die Übersetzung von natürlicher Sprache in SQL via Genie ist nun nativ integriert und ermöglicht es auch nicht-technischen Anwendern, Lakehouse-Daten direkt abzufragen.
- Standard-Tier-Abkündigung: Der Standard-Tarif von Azure Databricks wird eingestellt, was die Migration bestehender Instanzen auf die Premium- oder Enterprise-Stufe erforderlich macht.
Warum es den Artikel ergänzt
Dieses Update erweitert die Data-Engineering-Neuerungen vom Juni 2026 um den wichtigen strategischen Kontext, dass Einstiegs-Tiers abgekündigt werden und hochentwickelte serverlose Pipelines sowie KI-gestützte Datenanalysen in den produktiven Standard übergehen.
Azure Databricks Data Engineering: Fünf große Updates
Zusammenfassung
Azure Databricks hat eine Reihe wichtiger Updates für seine Data-Engineering-Plattform vorgestellt, die Dateneingang (Ingestion), Data Governance, Abfrageoptimierung, Hochverfügbarkeit und KI-Integration betreffen. Zu den wichtigsten Ankündigungen gehören ein neuer Lakeflow Connect SharePoint-Connector, verbesserter externer Zugriff auf Delta- und Iceberg-Tabellen über Unity Catalog, die Unterstützung von nicht erzwungenen (informationellen) UNIQUE-Constraints zur Performanceoptimierung in Databricks SQL, eine integrierte verwaltete Disaster-Recovery-Funktion für die automatische Workspace-Replikation sowie die Bereitstellung von Genie Spaces über eine neue Genie Spaces API. Diese Features zielen darauf ab, den Entwicklungs- und Betriebsaufwand für moderne Lakehouse-Architekturen drastisch zu verringern und die Integration in externe Systeme zu erleichtern.
Was ist passiert?
In den letzten Tagen wurden offizielle Dokumentationen und Blogposts von Microsoft und Databricks veröffentlicht, die eine breite Palette neuer Features in Azure Databricks einführen:
- Lakeflow Connect SharePoint-Connector: Ermöglicht die direkte Ingestion von strukturierten, semistrukturierten und unstrukturierten Dateien (z. B. Excel, CSV, Dokumente) aus SharePoint-Verzeichnissen direkt in Delta-Tabellen, gesteuert über Unity Catalog und Serverless-Infrastruktur.
- Externer Delta- und Iceberg-Zugriff via Unity Catalog: Unity Catalog fungiert nun als offenes Apache Iceberg REST-Verzeichnis. Externe Engines (z. B. Snowflake, Trino, Apache Spark) können über standardisierte REST-APIs geschützt auf Delta- und Iceberg-Tabellen zugreifen, unterstützt durch UniForm.
- Informationelle UNIQUE-Constraints: Databricks SQL erlaubt nun die Definition von UNIQUE- und PRIMARY KEY-Constraints. Diese werden zwar nicht aktiv erzwungen (Integrität muss im ETL-Prozess gelöst werden), helfen dem Photon-Query-Optimizer jedoch durch die
RELY-Klausel, Abfragen intelligenter umzuschreiben und somit die Performance drastisch zu steigern. - Managed Disaster Recovery (DR): Ein neuer verwalteter Dienst repliziert automatisch Metadaten und Daten des Unity Catalogs sowie Workspace-Objekte (wie Notebooks, Jobs und SQL-Warehouses) in eine Sekundärregion, um bei Ausfällen innerhalb weniger Minuten ein Failover zu ermöglichen. Ein stabiler Verbindungs-URL (Stable URL) sorgt für unterbrechungsfreie Client-Verbindungen.
- Genie Spaces API: Databricks Genie, das Business-Usern die Abfrage von Daten in natürlicher Sprache ermöglicht, wird jetzt über eine spezielle API (Genie Spaces API) programmatisch zugänglich gemacht, um Konversations-Schnittstellen direkt in eigene Applikationen einzubinden.
Warum es wichtig ist
Für Data Engineers und Cloud-Architekten beseitigen diese Updates erhebliche manuelle Integrationshürden. Der SharePoint-Connector eliminiert komplexe Middleware-Pipelines (z. B. über Logic Apps oder Power Automate), was die Einbindung von Excel-Planungsdaten und Dokumenten für RAG-Systeme enorm vereinfacht. Die REST-Schnittstellen für Iceberg und Delta etablieren Unity Catalog als echtes, plattformübergreifendes Governance-Zentrum. Durch die Einführung informationeller Constraints können bestehende Abfragen auf Photon-Compute ohne Codeänderung beschleunigt werden. Managed DR schließlich verringert die Notwendigkeit von fehleranfälligen DIY-Replikationsskripten auf Terraform- oder Delta-Clone-Basis auf ein Minimum, was die Betriebssicherheit von Enterprise-Plattformen maßgeblich erhöht.
Beweise
- Lakeflow Connect SharePoint-Connector: Offizielle Ankündigung und Referenzdokumentation zur Konfiguration von
sharepoint_options. - Offener Katalog-Zugriff: Veröffentlichung des Iceberg REST Catalog APIs in Unity Catalog für nahtlose Trino-/Snowflake-Abfragen.
- Constraints in Databricks SQL: Release-Notes zu Databricks Runtime 18.2+ und DDL-Erweiterungen für informationelle UNIQUE- und PRIMARY KEY-Constraints.
- Managed DR Feature-Gate: Dokumentation des Managed DR Features mit Workspace-Asset-ID-Erhaltung und Stable URLs.
- Genie Spaces API: API-Spezifikationen für das Starten und Verfolgen von Konversationen über
/api/2.0/genie/spaces.
Analyse
Die Updates verdeutlichen zwei strategische Prioritäten von Databricks: Offenheit und Betriebsreife auf Enterprise-Niveau.
Mit dem Iceberg REST API und UniForm öffnet sich die Plattform gegenüber dem Konkurrenz-Ökosystem und festigt den Unity Catalog als Industriestandard. Die Einführung nicht erzwungener UNIQUE-Constraints zeigt, wie Databricks Metadaten nutzt, um die hardwarebeschleunigte Photon-Engine weiter zu optimieren. Das Konzept, Integritätserzwingung weiterhin der Pipeline (z. B. durch MERGE oder Delta Live Tables Expectations) zu überlassen, aber die Metadaten für Join-Eliminierungen zu nutzen, ist ein kluger Kompromiss zwischen Schreibperformance und Leseoptimierung.
Das neue Managed Disaster Recovery markiert das Ende komplexer, selbstgebauter Multi-Region-Synchronisierungen. Durch die automatische Replikation von Workspace-Assets und das Beibehalten von IDs wird die Ausfallsicherheit für Großkunden drastisch vereinfacht.
Praktische Erkenntnisse
- Für Ingestion-Pipelines: Ersetzen Sie selbstgebaute SharePoint-Ingestion-Skripte durch den neuen managed Lakeflow-Connector, um Serverless-Skalierung und automatische Governance zu nutzen.
- Für Performance-Optimierung: Definieren Sie UNIQUE- und PRIMARY KEY-Constraints mit der Klausel
RELYauf Tabellen, bei denen die Eindeutigkeit anderweitig (z. B. durch ETL-Deduplizierung) garantiert ist, um die Photon-Optimierung zu aktivieren. - Für Cross-Region-Resilience: Beantragen Sie über Ihr Azure Databricks Account-Team den Zugriff auf Managed Disaster Recovery, um DR-Szenarien ohne manuelle Skripte zu automatisieren.
- Für Applikationsentwickler: Nutzen Sie die Genie Spaces API, um strukturierte Daten-Abfragemöglichkeiten direkt über Chatbots oder Agenten-Frameworks für Fachbereiche bereitzustellen.
Offene Fragen
- Globale Verfügbarkeit: In welchen Azure-Regionen ist Managed Disaster Recovery zuerst verfügbar und wie hoch sind die zusätzlichen Kosten für die automatische Asset-Replikation?
- Deduplizierungs-Aufwand: Da UNIQUE-Constraints nicht erzwungen werden, bleibt die Verantwortung für Datenintegrität bei den Data Engineers. Führt dies zu Missverständnissen bei Teams, die traditionelle RDBMS-Modelle gewohnt sind?
Quellen
- Lakeflow Connect SharePoint Connector
- External Data Access via Unity Catalog
- Unique Constraints in Databricks SQL
- Managed Disaster Recovery in Azure Databricks
- Genie Spaces API Reference
- FabCon 2026: Lakebase, Lakeflow und Genie
- Abkündigung des Standard-Tiers in Azure Databricks
- Azure Databricks Tutorial
- Microsoft Fabric Integration
- Azure Databricks Update Video