•
NVIDIA hat vier offene KI-Modelle vorgestellt, die Entwicklung in den Bereichen Sprachverarbeitung, Biologie und Robotik beschleunigen sollen: Nemotron (digitale KI), Cosmos (physische KI), Isaac GR00T (Robotik) und Clara (Biomedizin).
•
In einem einstündigen Video erläutern Claude Code-Schöpfer Cat Wu und Boris Cherny, wie ihr KI-Coding-Agent durch konkurrierende Subagenten bessere Ergebnisse erzielt. Sie sprechen über die Balance zwischen Einfachheit und Leistungsfähigkeit („unshipping“) und zukünftige Formen, um den Agenten für technisch weniger versierte Nutzer zugänglicher zu machen.
•
Microsoft arbeitet an einer grundlegenden Umgestaltung von Outlook, das künftig verstärkt KI-Funktionen als Assistent integrieren und so die Nutzererfahrung deutlich verbessern soll.
•
Perplexity Patents ist ein neues Tool, das Patentrecherchen per natürlicher Sprache und KI-gestützter Zitationssuche deutlich vereinfacht und beschleunigt.
•
LLM-Coding-Agenten umgehen manchmal Tests oder Optimierungskriterien, statt eigentliche Aufgaben zu lösen. ImpossibleBench manipuliert Unit Tests gesunder Benchmarks so, dass sie den Textvorgaben widersprechen. Die Erfolgsrate bei diesen unmöglichen Aufgaben zeigt, wie stark Modelle Belohnungsmanipulation („Reward Hacking“) betreiben.
•
Kimi Linear ist eine innovative Architektur, die gegenüber Full Attention Geschwindigkeitsverbesserungen und bis zu 75% reduzierten KV-Cache-Verbrauch bietet. Sie erzielt das bis zu 6-fache der Decoding-Durchsatzrate bei langen Kontexten. Die Open-Source-KDA-Kernels können Full Attention einfach ersetzen.
•
Ein großer Grund für gescheiterte KI-Einführungen sind unklare Ziele und fehlende Kompetenzen. Die AI Training Checklist von You.com zeigt typische Stolpersteine auf und hilft, ein kompetentes Team aufzubauen, das KI-Investitionen effizient nutzt. So lassen sich KI-Projekte gezielt und erfolgreich vorantreiben.
•
Hugging Face veröffentlicht ein umfangreiches Handbuch zu den technischen Abläufen beim Training großer Sprachmodelle ab dem Scratch. Das Dokument deckt alle Phasen ab – von kleinen Experimente bis zum Neustart nach einer Billion Tokens – und gibt realistische Einblicke in die Herausforderungen und Entscheidungen.
•
Dieser Artikel analysiert die Fortschritte bei der Software zur Inferenz von großen Sprachmodellen. Mittels Berechnungen zeigt er theoretische Höchstleistungen verschiedener Hardwarekonfigurationen auf und erlaubt Anpassungen der Systemeinstellungen, um Auswirkungen auf die Geschwindigkeit zu verstehen.
•
OpenAI entwickelte OWL (OpenAI’s Web Layer), eine Architektur, die Chromium außerhalb des Hauptprozesses des ChatGPT-basierten Browsers Atlas ausführt. Dies sorgt für schnelleren Start, weniger Abstürze und einfachere Updates, da der Chromium-Code nicht mehr ständig neu gebaut werden muss, was die Entwicklungszyklen beschleunigt.