OpenAI und Broadcom präsentieren „Jalapeño“: Maßgeschneiderter KI-Inferenz-Chip vorgestellt
Zusammenfassung
OpenAI und Broadcom haben offiziell „Jalapeño“ vorgestellt, einen maßgeschneiderten und speziell für die Inferenz von Large Language Models (LLMs) entwickelten KI-Prozessor (ASIC). Der Chip wurde in einer ungewöhnlich kurzen Entwicklungszeit von nur neun Monaten vom Entwurf bis zur Fertigungsreife (Tape-Out) gebracht, was unter anderem durch den Einsatz von OpenAIs eigenen KI-Modellen ermöglicht wurde. Jalapeño soll die Hardware-Effizienz drastisch steigern und die Inferenzkosten für Dienste wie ChatGPT und die OpenAI-API um schätzungsweise 50 % senken. Erste Test-Chips laufen bereits erfolgreich im Labor.
Was ist passiert?
- Chip-Enthüllung: Am 24. Juni 2026 stellten OpenAI und Broadcom den custom-designed Inferenz-Prozessor „Jalapeño“ vor.
- Rekordverdächtige Entwicklungszeit: Vom ersten Entwurf bis zum Tape-Out vergingen lediglich neun Monate. Der Designprozess wurde durch OpenAIs eigene Modelle unterstützt.
- Spezifische Architektur: Jalapeño ist von Grund auf für die LLM-Inferenz konzipiert. Er löst Engpässe bei der Datenübertragung sowie der Balance zwischen Speicher und Rechenleistung.
- Erste Tests laufen: Im Labor werden bereits Machine-Learning-Workloads auf Engineering-Samples ausgeführt, darunter das Modell GPT-5.3-Codex-Spark.
- Markteinführung: Die ersten Systeme sollen Ende 2026 in Rechenzentren zum Einsatz kommen.
Warum es wichtig ist
Die Vorstellung von Jalapeño markiert einen strategischen Wendepunkt. Bisher dominierte NVIDIA den Markt für KI-Hardware fast vollständig. Mit einem eigenen Chip verringert OpenAI seine Abhängigkeit von externen Hardware-Anbietern und sichert sich die Kontrolle über die gesamte Infrastruktur-Pipeline. Da die Nachfrage nach kostengünstiger und schneller Inferenz für Agenten-Systeme und komplexe KI-Anwendungen rasant steigt, ist ein speziell optimierter Chip der Schlüssel zur Senkung der Betriebskosten und zur Erhöhung der Skalierbarkeit.
Beweise
- Pressemitteilungen: Offizielle Ankündigungen von OpenAI und Broadcom.
- Labor-Berichte: Bestätigte Ausführung von Modellen wie GPT-5.3-Codex-Spark auf Prototypen.
- Entwicklungsdetails: Berichte namhafter Tech-Medien wie CNBC, Tom’s Hardware und Heise.
Analyse
Traditionelle GPUs sind für das Training von Modellen hervorragend geeignet, weisen bei der Inferenz – dem Anwenden der Modelle – jedoch Ineffizienzen auf. Jalapeño setzt genau hier an: Es handelt sich um ein „Blank-Slate“-Design, das die hohen Latenzen und Energiekosten durch optimierte Speicheranbindung und Datenpfade minimiert. Durch die enge Hard- und Software-Co-Entwicklung (Co-Design) erzielt Jalapeño eine signifikant höhere Leistung pro Watt. Der Erfolg dieses Projekts zeigt zudem, wie KI-Modelle den Designprozess komplexer Halbleiter beschleunigen können.
Praktische Erkenntnisse
- Kosteneinsparungen: Entwickler und Unternehmen können mit einer deutlichen Senkung der API-Preise rechnen, sobald die Chips in Serie gehen.
- Agenten-Skalierung: Die hohe Effizienz ermöglicht komplexere, mehrstufige Agenten-Workflows, die zuvor aus Kostengründen nicht realisierbar waren.
- Infrastruktur-Trend: Große Tech-Konzerne werden verstärkt auf ASICs setzen, statt ausschließlich allgemeine GPUs zu verwenden.
Offene Fragen
- Wird Broadcom die Produktionskapazitäten bei TSMC im nötigen Umfang sichern können?
- Wie stark wird NVIDIA mit eigenen, spezialisierten Inferenz-Beschleunigern auf diese Entwicklung reagieren?
- Kann OpenAI den Chip schnell genug flächendeckend in allen Rechenzentren ausrollen, um den steigenden Bedarf zu decken?