OpenAI und Broadcom präsentieren „Jalapeño“: Maßgeschneiderter KI-Inferenz-Chip vorgestellt

Zusammenfassung

OpenAI und Broadcom haben offiziell „Jalapeño“ vorgestellt, einen maßgeschneiderten und speziell für die Inferenz von Large Language Models (LLMs) entwickelten KI-Prozessor (ASIC). Der Chip wurde in einer ungewöhnlich kurzen Entwicklungszeit von nur neun Monaten vom Entwurf bis zur Fertigungsreife (Tape-Out) gebracht, was unter anderem durch den Einsatz von OpenAIs eigenen KI-Modellen ermöglicht wurde. Jalapeño soll die Hardware-Effizienz drastisch steigern und die Inferenzkosten für Dienste wie ChatGPT und die OpenAI-API um schätzungsweise 50 % senken. Erste Test-Chips laufen bereits erfolgreich im Labor.

Was ist passiert?

Chip-Enthüllung: Am 24. Juni 2026 stellten OpenAI und Broadcom den custom-designed Inferenz-Prozessor „Jalapeño“ vor.
Rekordverdächtige Entwicklungszeit: Vom ersten Entwurf bis zum Tape-Out vergingen lediglich neun Monate. Der Designprozess wurde durch OpenAIs eigene Modelle unterstützt.
Spezifische Architektur: Jalapeño ist von Grund auf für die LLM-Inferenz konzipiert. Er löst Engpässe bei der Datenübertragung sowie der Balance zwischen Speicher und Rechenleistung.
Erste Tests laufen: Im Labor werden bereits Machine-Learning-Workloads auf Engineering-Samples ausgeführt, darunter das Modell GPT-5.3-Codex-Spark.
Markteinführung: Die ersten Systeme sollen Ende 2026 in Rechenzentren zum Einsatz kommen.

Warum es wichtig ist

Die Vorstellung von Jalapeño markiert einen strategischen Wendepunkt. Bisher dominierte NVIDIA den Markt für KI-Hardware fast vollständig. Mit einem eigenen Chip verringert OpenAI seine Abhängigkeit von externen Hardware-Anbietern und sichert sich die Kontrolle über die gesamte Infrastruktur-Pipeline. Da die Nachfrage nach kostengünstiger und schneller Inferenz für Agenten-Systeme und komplexe KI-Anwendungen rasant steigt, ist ein speziell optimierter Chip der Schlüssel zur Senkung der Betriebskosten und zur Erhöhung der Skalierbarkeit.

Beweise

Pressemitteilungen: Offizielle Ankündigungen von OpenAI und Broadcom.
Labor-Berichte: Bestätigte Ausführung von Modellen wie GPT-5.3-Codex-Spark auf Prototypen.
Entwicklungsdetails: Berichte namhafter Tech-Medien wie CNBC, Tom’s Hardware und Heise.

Analyse

Traditionelle GPUs sind für das Training von Modellen hervorragend geeignet, weisen bei der Inferenz – dem Anwenden der Modelle – jedoch Ineffizienzen auf. Jalapeño setzt genau hier an: Es handelt sich um ein „Blank-Slate“-Design, das die hohen Latenzen und Energiekosten durch optimierte Speicheranbindung und Datenpfade minimiert. Durch die enge Hard- und Software-Co-Entwicklung (Co-Design) erzielt Jalapeño eine signifikant höhere Leistung pro Watt. Der Erfolg dieses Projekts zeigt zudem, wie KI-Modelle den Designprozess komplexer Halbleiter beschleunigen können.

Praktische Erkenntnisse

Kosteneinsparungen: Entwickler und Unternehmen können mit einer deutlichen Senkung der API-Preise rechnen, sobald die Chips in Serie gehen.
Agenten-Skalierung: Die hohe Effizienz ermöglicht komplexere, mehrstufige Agenten-Workflows, die zuvor aus Kostengründen nicht realisierbar waren.
Infrastruktur-Trend: Große Tech-Konzerne werden verstärkt auf ASICs setzen, statt ausschließlich allgemeine GPUs zu verwenden.

Offene Fragen

Wird Broadcom die Produktionskapazitäten bei TSMC im nötigen Umfang sichern können?
Wie stark wird NVIDIA mit eigenen, spezialisierten Inferenz-Beschleunigern auf diese Entwicklung reagieren?
Kann OpenAI den Chip schnell genug flächendeckend in allen Rechenzentren ausrollen, um den steigenden Bedarf zu decken?