Neues Optimierungs-Framework Arbor schlägt Claude Code und Codex um das 2,5-Fache
Zusammenfassung
In einem bemerkenswerten Fortschritt für autonome KI-Agenten haben Forscher der Renmin Universität von China (Gaoling School of Artificial Intelligence) und Microsoft Research ein neues Open-Source-Framework namens Arbor vorgestellt. Arbor ist darauf ausgelegt, autonome Forschungs- und Optimierungsprozesse in eine kumulative Suche über lange Zeithorizonte zu transformieren. In Benchmarks schlägt Arbor führende terminal-native Coding-Agenten wie Claude Code und OpenAI Codex um das 2,5-Fache bei identischem Compute-Budget. Dieser Durchbruch verdeutlicht eine Verschiebung in der Branche von der reinen Skalierung von Modellparametern hin zu algorithmischer Optimierung und strukturierten Ausführungs-Harnesses für agentische Aufgaben.
Was ist passiert?
- Veröffentlichung von Arbor: Im Juni 2026 veröffentlichten Forscher der Renmin Universität und Microsoft Research das Open-Source-Forschungs-Framework Arbor.
- Benchmark-Ergebnisse: Arbor erzielt mehr als das 2,5-Fache des durchschnittlichen relativen Gewinns gegenüber etablierten Coding-Agenten wie Claude Code und OpenAI Codex bei gleichem Compute-Budget.
- Herausragende Leistung bei MLE-Bench Lite: Unter Verwendung von GPT-5.5 erzielte Arbor eine hervorragende Erfolgsquote von 86,36 % (“Any Medal”) auf dem MLE-Bench Lite-Benchmark.
- Architektur-Details: Das Framework führt eine zweiseitige Agentenstruktur (Coordinator und Executors) ein und implementiert das Konzept der “Hypothesis-Tree Refinement” (HTR).
Warum es wichtig ist
Die Einführung von Arbor markiert einen Wendepunkt in der Entwicklung von KI-Coding-Agenten. Bisher stützten sich viele Systeme auf einfache Versuch-und-Irrtum-Schleifen, bei denen Erkenntnisse aus Fehlversuchen verloren gingen. Arbor überwindet diese Limitierung durch einen persistenten Hypothesenbaum, der Erkenntnisse sichert und unproduktive Pfade gezielt abschneidet. Dies zeigt, dass signifikante Effizienzgewinne nicht zwingend durch größere Sprachmodelle, sondern durch bessere algorithmische Steuerung erzielt werden können.
Beweise
- Wissenschaftliche Publikation: Das offizielle Whitepaper von der Renmin Universität und Microsoft Research detailliert die HTR-Methode.
- Benchmark-Daten: Berichte auf MLE-Bench Lite und Leaderboard-Updates bestätigen die Effizienz und Leistung.
- Praxistests: Entwickler-Leaderboards wie Morph LLM listen Arbor als Spitzenreiter bei der Effizienz von Coding-Agenten für das Jahr 2026.
Analyse
Die Kerninnovation von Arbor liegt in der “Hypothesis-Tree Refinement” (HTR). Anstatt dass ein Agent isolierte Ausführungen startet und bei Misserfolg von vorn beginnt, organisiert Arbor den Prozess in einem verzweigten Baum. Jeder Knoten enthält:
- Eine formulierte Hypothese.
- Einen ausführbaren Code- oder Modell-Artefakt.
- Experimentelle Beweise und Messungen.
- Daraus destillierte Erkenntnisse. Der übergeordnete “Coordinator”-Agent steuert die Strategie und nutzt Git-Worktrees, in denen kurzlebige “Executor”-Agenten die Experimente isoliert ausführen. Dieser strukturierte Memory-Ansatz verhindert, dass Fehler wiederholt werden.
Praktische Erkenntnisse
Für Softwareentwickler und Unternehmen, die mit autonomen Coding-Agenten arbeiten, ergeben sich folgende Learnings:
- Algorithmen vor Modellgröße: Effizienzsteigerungen bei Agenten hängen zunehmend von der Ausführungs-Architektur und dem Suchalgorithmus ab, nicht nur von der Modellgröße.
- Strukturierter Speicher: Entwicklungs-Pipelines für Agenten sollten einen permanenten Speicher für fehlgeschlagene Pfade besitzen, um Redundanzen zu vermeiden.
- Integration nutzen: Da Arbor als Open Source mit einem CLI-Runtime und einer “Agent Skill Suite” bereitgestellt wird, lässt es sich in bestehende Agenten-Workflows integrieren.
Offene Fragen
- Inwieweit lässt sich Arbor auf hochkomplexe, proprietäre Legacy-Codebasen anwenden, in denen das Erstellen isolierter Testumgebungen schwierig ist?
- Welche Sicherheitsrisiken entstehen durch die autonome Ausführung und Verfeinerung von Hypothesen in realen Produktionsumgebungen?