•
Die neue, zustandsbehaftete Responses API ersetzt die alte /chat/completions API und ermöglicht, dass Nutzer nicht mehr den kompletten Gesprächsverlauf senden müssen. Stattdessen verwaltet OpenAI den Gesprächszustand und kann so seine internen Schlussfolgerungen verbergen.
•
Die Barrieren für das eigene Modelltraining sinken rapide. Methoden wie Distillation und Fine-Tuning werden immer zugänglicher. Zukünftig wird relevanter KI-Erfolg fast ausschließlich durch eigene Modelle erreicht.
•
Nvidia präsentierte die Rubin CPX, eine GPU speziell für die Verarbeitung von Kontextfenstern mit über einer Million Tokens. Sie ist optimiert für Aufgaben mit großem Kontext wie Videoerstellung und Softwareentwicklung und soll Ende 2026 verfügbar sein.
•
Claude ermöglicht ab sofort das direkte Erstellen und Bearbeiten von Dokumenten, Tabellen, Präsentationen und PDFs in der App. Nutzer können damit Eingaben und Daten in herunterladbare Dateien umwandeln.
•
Microsoft integriert Claude von Anthropic in Office 365 und beendet damit seine exklusive Abhängigkeit von OpenAI. Dies folgt auf Spannungen durch OpenAIs Wettbewerbsideen wie KI-gestützte LinkedIn-Alternativen und eigene Chips.
•
In einer von Founders Fund geführten Finanzierungsrunde konnte Cognition mehr als 400 Mio. USD einnehmen. Auch Bain Capital Ventures und weitere Investoren beteiligten sich, womit das Unternehmen eine Bewertung von 10,2 Mrd. USD erreicht.
•
Nebius wird Microsofts neue Cloud-Dienste mit Nvidia-GPUs aus einem Rechenzentrum in New Jersey über fünf Jahre bereitstellen und liefert damit wesentliche KI-Infrastruktur.
•
Perplexity bietet eine KI-Plattform an, die keine Nutzerdaten verwendet und speziell auf die Bedürfnisse von US-Regierungsbehörden zugeschnitten ist. Zusätzlich gibt es ein Enterprise-Pro-Paket für 0,25 Dollar pro Nutzer.
•
Anthropic befürwortet den kalifornischen Gesetzentwurf SB 53, der Offenlegungspflichten für Sicherheitspraktiken bei fortschrittlichen KI-Systemen fordert.
•
Set Block Decoding kombiniert Vorhersagen für nächste und maskierte Tokens, um mehrere Zukunftstoken parallel zu generieren. Dadurch lässt sich die Dekodierzeit bis zu fünfmal reduzieren, ohne Genauigkeitsverluste.