Azure Databricks führt Managed Disaster Recovery in der Public Preview ein

Zusammenfassung

Mit der Einführung von Managed Disaster Recovery (DR) in der Public Preview am 12. Juni 2026 automatisiert Azure Databricks die Replikation kritischer Workspace-Assets und Unity Catalog-Metadaten. Diese native Funktion ermöglicht es Unternehmen, Business-Continuity-Szenarien ohne den Aufbau und die Wartung komplexer, manueller Replikationsskripte umzusetzen. Über eine stabile URL bleibt die Konnektivität für Downstream-Clients auch nach einem Failover ohne Anpassung der Verbindungszeichenfolgen bestehen.

Was ist passiert?

Azure Databricks hat am 12. Juni 2026 das Managed Disaster Recovery (Managed DR) in der Public Preview freigegeben. Diese Neuerung:

Repliziert kontinuierlich Unity Catalog-Metadaten, verwaltete Tabellendaten, Ansichten, Funktionen, Berechtigungszuweisungen sowie Metadaten von externen Tabellen und Volumes.
Synchronisiert Workspace-Assets wie Notebooks, Jobs, SQL-Warehouses, Cluster und zugehörige Zugriffskontrolllisten (ACLs) in eine sekundäre Region.
Ermöglicht die Steuerung und Konfiguration direkt über den neuen Bereich „Resilience“ in der Account-Konsole.
Führt zeitgleich das „Mission Critical“-Workspace-Add-on in der Public Preview ein, das Managed DR mit erweiterten Sicherheits- und Compliance-Features (ESC) bündelt.
Der Zugriff auf beide Features ist derzeit gated und erfordert eine Freischaltung durch das zuständige Databricks-Account-Team.

Warum es wichtig ist

Die manuelle Verwaltung von Disaster Recovery in großen Data-Lakehouse-Umgebungen war bisher fehleranfällig, zeitintensiv und erforderte eigene Replikationsskripte oder Terraform-Konfigurationen.

Automatisierung statt DIY: Databricks übernimmt nun die Verwaltung der Replikationspipeline und des Failovers, was die Ausfallzeiten (RTO) auf Minuten reduziert.
Konsistente Endpunkte: Durch die optionale stabile URL müssen Downstream-Clients (wie BI-Tools oder APIs) nach einem Failover nicht neu konfiguriert werden.
Identitätserhalt: Asset-IDs bleiben über Regionen hinweg identisch, wodurch Verweise und Pfade in Workflows intakt bleiben.

Beweise

Die Ankündigung sowie die technischen Details wurden in der offiziellen Dokumentation von Databricks und Microsoft veröffentlicht. Zudem können Administratoren den aktuellen Replikationsstatus über die neue Systemtabelle system.replication.states überwachen, die Replikationsverzögerungen, Fehler und Zustände dokumentiert.

Analyse

Mit der Einführung von Managed DR reagiert Databricks auf die steigende Nachfrage von Unternehmenskunden nach ausfallsicheren Lakehouse-Architekturen für geschäftskritische Workflows. Die native Bündelung im „Mission Critical“-Add-on zeigt, dass Hochverfügbarkeit und Sicherheit enger zusammenwachsen. Für die meisten Standard-Szenarien wird dieser native Ansatz die bisherigen, selbstgebauten Lösungen verdrängen. Lediglich für komplexe Multi-Cloud-Topologien oder Active-Active-Szenarien bleiben manuelle Ansätze weiterhin relevant.

Praktische Erkenntnisse

Unternehmen, die Azure Databricks einsetzen, sollten folgende Schritte prüfen:

Bedarfsanalyse: Prüfen Sie, ob Ihre RTO- und RPO-Anforderungen mit dem nativen Managed DR (Ausfallzeiten im Minutenbereich) abgedeckt werden können.
Freischaltung anfordern: Da das Feature gated ist, kontaktieren Sie Ihr Databricks-Account-Team für den Zugriff auf Managed DR und das Mission-Critical-Add-on.
Monitoring einrichten: Nutzen Sie die Systemtabelle system.replication.states, um die Replikationsverzögerung kontinuierlich zu überwachen.
Stable URLs nutzen: Verwenden Sie die stabilen Verbindungs-URLs für Client-Verbindungen, um manuelle Eingriffe bei einem Failover zu vermeiden.

Offene Fragen

Wie hoch werden die zusätzlichen Kosten für das Mission-Critical-Add-on und die regionsübergreifende Datenreplikation nach der General Availability (GA) ausfallen?
Wann wird die Unterstützung für Regionen außerhalb der primären Azure-Infrastruktur (z. B. Cross-Cloud-DR) nativ integriert?