Databricks Lakehouse//RT: Echtzeit-Datenverarbeitung direkt auf dem Lakehouse
Databricks Lakehouse//RT: Echtzeit-Datenverarbeitung direkt auf dem Lakehouse
Zusammenfassung
Databricks hat die Einführung von Lakehouse//RT bekannt gegeben, einer neuen Verarbeitungs-Engine, die speziell für Echtzeit-Workloads mit extrem niedriger Latenz entwickelt wurde. Diese Engine läuft direkt auf offenen Lakehouse-Standards wie Delta Lake und Apache Iceberg. Dadurch soll der Bedarf an separaten, dedizierten Echtzeit-Datenbank-Clustern drastisch reduziert werden, was Architekturen vereinfacht und Kosten spart.
Was ist passiert?
- Produktankündigung: Databricks hat Lakehouse//RT offiziell als neue Option innerhalb der Data Intelligence Platform vorgestellt, die Millisekunden-Abfragen ermöglicht.
- Neue Compute-Engine: Das Herzstück von Lakehouse//RT ist eine völlig neu entwickelte Compute-Engine namens Reyden, die speziell auf hohe Nebenläufigkeit und sofortige Reaktionszeiten ausgelegt ist.
- Keine Datenbewegung: Die Verarbeitung erfolgt direkt auf den bestehenden Tabellen (Delta Lake und Apache Iceberg), ohne dass Daten in proprietäre Formate verschoben oder repliziert werden müssen.
- Marktreaktion: Branchenexperten wie Michael Driscoll (Co-Gründer von Rill Data) und die Entwickler-Community auf Hacker News diskutieren die Auswirkungen dieser Ankündigung auf den Markt für Echtzeit-Datenbanken intensiv.
Warum es wichtig ist
Bislang mussten Unternehmen, die Echtzeit-Analysen oder schnelle Anwendungsdaten benötigten, ihre Daten aus dem Lakehouse in spezialisierte Echtzeit-Datenbanken (wie ClickHouse, Rockset oder Apache Druid) exportieren. Dies führte zu komplexen Change-Data-Capture-Pipelines (CDC), doppelter Datenhaltung und Governance-Herausforderungen. Lakehouse//RT bricht diese Silos auf, indem es Echtzeit-Abfragen und historische Analysen auf einer einzigen Plattform vereint.
Beweise
- Offizielle Ankündigung: Die offizielle Vorstellung im Databricks Community Hub beschreibt die Architektur und Vorteile von Lakehouse//RT.
- Fachdiskussionen: Michael Driscolls Analyse auf LinkedIn hebt hervor, dass der Markt für Echtzeit-Datenbanken durch diese Integration nun endgültig im Mainstream angekommen ist.
- Community-Feedback: Der Thread auf Hacker News dokumentiert die erste Reaktion von Entwicklern und Architekten zu den Performance-Versprechen und der Reyden-Engine.
Analyse
Die Einführung der Reyden-Engine markiert eine Abkehr von der bisherigen Photon-Engine für OLTP-ähnliche Anfragen. Mit einer Latenz von unter 100 Millisekunden bei Tausenden parallelen Abfragen zielt Databricks direkt auf den OLAP/Echtzeit-Markt ab. Der größte Vorteil liegt in der Integration mit dem Unity Catalog, wodurch die Sicherheits- und Governance-Richtlinien ohne Mehraufwand für Echtzeit-Daten gelten. Dennoch bleibt abzuwarten, wie sich die Kosten im Vergleich zu dedizierten Open-Source-Systemen verhalten.
Praktische Erkenntnisse
- Architektur-Vereinfachung: Evaluieren Sie, ob bestehende Pipelines zu externen Echtzeit-Datenbanken durch Lakehouse//RT ersetzt werden können, um CDC-Overhead zu eliminieren.
- Kosten-Nutzen-Analyse: Führen Sie Benchmark-Tests mit der Reyden-Engine durch, um die Kosten von Serverless-Compute bei dauerhafter Echtzeit-Last zu bewerten.
- Governance nutzen: Verwenden Sie den Unity Catalog, um Berechtigungen für Echtzeit-Anwendungen direkt auf Tabellenebene zu steuern.
Offene Fragen
- Wie schlägt sich Lakehouse//RT in direkten Benchmarks gegen hochoptimierte Systeme wie ClickHouse?
- Welche Lizenz- und Compute-Kosten fallen für die dauerhafte Bereitstellung von Lakehouse//RT in Standard-Workspaces an?