Rio 3.5 Open: Rio de Janeiros KI-Modell entfacht Weight-Merging-Debatte
Zusammenfassung
Die IT-Agentur der Stadt Rio de Janeiro, IplanRIO, veröffentlichte am 13. Juni 2026 das Mixture-of-Experts (MoE) Modell „Rio 3.5 Open 397B“. Es wurde behauptet, das Modell übertreffe DeepSeek V4 Pro auf dem Terminal-Bench 2.1 Benchmark. Innerhalb von nur 24 Stunden wies der KI-Entwickler Nex-AGI jedoch nach, dass es sich um eine bloße 60/40-Mischung (Weight Merge) aus Nex-N2-Pro und Qwen 3.5-397B handelt. Nach öffentlicher Kritik gab IplanRIO den Fehler zu, entschuldigte sich und sprach von einer versehentlichen Veröffentlichung einer unvollständigen Vorabversion.
Was ist passiert?
- Veröffentlichung auf Hugging Face: Am 13. Juni 2026 veröffentlichte IplanRIO das Modell unter
prefeitura-rio/Rio-3.5-Open-397B. - Eindrucksvolle Benchmark-Versprechen: Es wurde behauptet, das Modell erreiche 70,8 % auf dem Terminal-Bench 2.1 und schlage damit DeepSeek V4 Pro (67,9 %).
- Nex-AGI deckt Weight Merge auf: Der Entwickler Nex-AGI bewies mittels Tensor-Gewichtsanalysen, dass das Modell exakt aus 60 % Nex-N2-Pro und 40 % Qwen 3.5-397B-A17B zusammengesetzt ist.
- Selbstidentifikation des Modells: Ohne System-Prompt identifizierte sich das Modell in 79 % der Testfälle selbst als „Nex von Nex-AGI“.
- Richtigstellung und Entschuldigung: IplanRIO korrigierte die Hugging-Face-Dokumentation, nannte die echten Quellmodelle und erklärte, dass versehentlich eine unvollständige Vorabversion („Pre-Distillation“) hochgeladen worden war.
Warum es wichtig ist
Staatliche KI-Projekte (Sovereign AI) stehen unter hohem politischem Erfolgsdruck. Dieser Vorfall zeigt das Risiko von „Model Washing“ oder „Wrapper-Behauptungen“, bei denen einfache Modellverschmelzungen (Weight Merges) als eigenständig trainierte Spitzenmodelle deklariert werden. Er verdeutlicht auch, dass die Open-Source-Community über präzise mathematische Werkzeuge verfügt, um die Herkunft von Gewichten (Provenance) in kürzester Zeit nachzuweisen.
Beweise
Die Beweislast gegen die ursprüngliche Darstellung von IplanRIO war erdrückend:
- Gewichts-Korrelationsanalyse: Nex-AGI veröffentlichte eine GitHub-Analyse, die zeigte, dass die Gewichtstaktoren über alle 60 Layer hinweg mathematisch präzise mit einem 60/40-Verhältnis korrelierten.
- Entfernung des System-Prompts: Bei der Deaktivierung des Standard-Prompts antwortete das Modell auf Fragen nach seiner Identität mit Verweisen auf Nex-AGI.
- Offizielle Entschuldigung: IplanRIO gab über X (vormals Twitter) und Hugging Face eine offizielle Stellungnahme ab, in der das Weight-Merging und die unzureichende Kennzeichnung eingeräumt wurden.
Analyse
Die Kontroverse beleuchtet die Grauzone des „Weight Merging“ in der Open-Source-Gemeinschaft. Zwar sind Modellmischungen ein legitimes und kostengünstiges Mittel zur Leistungssteigerung, doch die Deklaration solcher Mischungen als „neue, eigenständig trainierte Modelle“ beschädigt das Vertrauen. Der Fall IplanRIO zeigt ein klassisches Governance-Problem bei öffentlich geförderten IT-Initiativen, die nationale oder regionale Technologiesouveränität demonstrieren wollen, dabei aber Qualitätskontrollen und Transparenz vernachlässigen.
Praktische Erkenntnisse
- Modell-Herkunft prüfen: Vor dem produktiven Einsatz von Open-Source-Modellen, die von unbekannteren oder staatlichen Institutionen veröffentlicht wurden, sollte eine Herkunftsprüfung (Provenance Check) durchgeführt werden.
- Transparente Lizenzierung: Entwickler, die Weight Merges erstellen, müssen alle Ausgangsmodelle und deren Lizenzen explizit benennen, um rechtliche und ethische Konflikte zu vermeiden.
- System-Prompts testen: Unternehmen sollten Modelle vor dem Einsatz systematisch ohne Standard-Prompts testen, um verdeckte Identitäten oder Hard-Coding zu identifizieren.
Offene Fragen
- Wird die von IplanRIO angekündigte, tatsächlich destillierte Version die versprochenen Benchmarks erreichen?
- Bietet das integrierte „SwiReasoning“-Inferenz-Framework außerhalb des Modell-Merges einen echten technologischen Mehrwert?
- Welche regulatorischen Standards sind nötig, um die Kennzeichnungspflicht von gemischten Modellen auf Plattformen wie Hugging Face abzusichern?