Der Aufstieg „Memory-First“ autonomer Coding-Agents: Hermes, Letta und das Ende der zustandslosen KI

Zusammenfassung

Die nächste Generation von KI-Coding-Agents verlässt die Grenzen des klassischen Kontextfensters. Neue Projekte wie der Hermes Agent von Nous Research und Letta Code führen persistentes Gedächtnis und autonome Lernschleifen ein. Damit wandelt sich die KI von einem zustandslosen Chat-Tool zu einem echten digitalen Mitarbeiter, der über mehrere Sessions hinweg lernt, sich an Codebases erinnert und eigene Fähigkeiten (Skills) entwickelt.

Was ist passiert?

In den letzten Wochen ist eine Welle von „Memory-First“-Agents erschienen, die das Problem der Vergesslichkeit von Large Language Models (LLMs) direkt angehen.

Letta Code nutzt ein Git-basiertes Dateisystem (MemFS) und „Memory Blocks“, um Wissen dauerhaft zu speichern.
Hermes Agent implementiert einen „Closed Learning Loop“, bei dem der Agent aus erfolgreichen Aufgaben lernt und neue Skills autonom erstellt.
oh-my-pi (omp) führt „Hindsight“ ein, einen Speicher, der Sessions komprimiert und so die Kosten für das Kontextfenster um bis zu 60 % senkt.

Warum es wichtig ist

Standard-LLMs sind von Natur aus zustandslos – sie vergessen alles, sobald ein Chat beendet wird. In komplexen Softwareprojekten führt das zur „Kontext-Steuer“: Entwickler müssen der KI immer wieder dieselben Konzepte erklären. Memory-First-Agents lösen dieses Problem durch „Long-Term Memory“, was sie für mehrtägige Refactorings und die Arbeit in riesigen Codebases überhaupt erst praktikabel macht.

Beweise

Das Projekt Letta Code erreichte innerhalb kürzester Zeit über 10.500 Sterne auf GitHub. Ein aktuelles Experiment auf Reddit zeigte zudem, wie ein Supervisor-Agent fünf verschiedene Agenten-Typen (darunter Hermes und Claude Code) koordinierte, um komplexe Probleme durch Diversität und gegenseitige Kontrolle zu lösen. Die Nous Research Community berichtet von Hermes-Agents, die bereits über 300 verschiedene Tools und APIs autonom nutzen können.

Analyse

Dieser Trend markiert den Übergang von „KI als Werkzeug“ zu „KI als Teammitglied“. Durch die Entkopplung der Ausführung vom lokalen Rechner (Agents laufen oft auf persistenten VPS) und die Nutzung lokaler Modelle für die Forschung sowie Frontier-Modelle (wie Claude 3.5 Sonnet) für die Synthese, entstehen hochperformante Ensembles. Das „Blind Reviewer Paradox“ zeigt hierbei: Ein Verbund aus günstigen Modellen kann oft einzelne High-End-Modelle schlagen, wenn die Architektur (Gedächtnis und Review-Schleifen) stimmt.

Praktische Erkenntnisse

Zustandslosigkeit vermeiden: Entwickler sollten für komplexe Aufgaben auf Tools setzen, die Sitzungen komprimieren (Session Compression).
Persistent Hosting: Agents sollten auf Servern laufen, nicht nur lokal, um dauerhaft „erreichbar“ zu sein und im Hintergrund (Background Processing) an Aufgaben zu arbeiten.
Diversität im Ensemble: Das Koordinieren mehrerer spezialisierter Agents führt zu weniger Fehlern als das Vertrauen auf eine einzige KI.

Offene Fragen

Wie gehen diese Agents langfristig mit Datenschutz und „Daten-Fäulnis“ (veraltetem Wissen im Gedächtnis) um? Wird das Konzept des „Träumens“ (Hintergrundverarbeitung zur Wissenskonsolidierung) zum Standard für alle KI-Anwendungen?