•
Pika stellte „Audio-Driven Performance“ vor, eine KI für ultra-realistische Lippen-Sync-Videos in unter 6 Sekunden. Das KAIST-Forschungsteam entwickelte „BInD“ zur maßgeschneiderten Krebsmedikamenten-Entwicklung. Anthropic kündigte „Claude Sonnet 4“ mit fünffachem Kontextverständnis für Softwareanalyse an. Perplexity AI bot Google Chrome für 34,5 Mrd. USD in bar zum Kauf an.
•
Apple will Siri 2026 grundlegend überarbeiten, um eine vollständig sprachgesteuerte Steuerung des iPhones zu ermöglichen. Statt Siri nur klüger zu machen, liegt der Fokus darauf, Aktionen per Sprachbefehl ohne Berührung auszuführen, etwa Fotos direkt per Nachricht zu versenden. Diese Neuerung basiert wahrscheinlich auf Apples ReALM-Technologie, die Bildschirminhalte in Text umwandelt, sodass Siri alles „lesen“…
•
11Labs erweitert sein Angebot um die KI-basierte Musikproduktion. Nutzer können Stilrichtungen beschreiben und erhalten in Echtzeit generierte Texte samt Instrumentalbegleitung. Die Plattform eignet sich ideal für Jam-Sessions, Demo-Erstellung und genre-spezifische Tracks auch ohne Gesang. Musiker können Begleitungen erstellen und darüber eigene Solos spielen.
•
Qwen-Image beeindruckt als eines der besten kostenlosen Bildmodelle mit realistischer und stilisierter Bildgenerierung sowie genauer Texterkennung. Leonardo.ai bietet nun auch Bild-zu-Video-Generierung. Grok erlaubt das Erstellen kurzer animierter Videos mit Ton, Gemini Storybooks produziert illustrierte Kinderbücher aus kurzen Texten. Google Kaggle startet ein KI-Schachturnier zur Evaluierung von Modellfähigkeiten, und Midjourney stellt hochauflösende Videooptionen bereit.
•
OpenAI hat zwei leistungsstarke Open-Weight-Modelle veröffentlicht: GPT-OSS 20B und GPT-OSS 120B. Diese sind vollständig herunterladbar, laufen lokal oder in der Cloud und weisen eine Leistung auf GPT-4-Niveau auf. Nutzer können sie frei feinjustieren und einsetzen, ohne Daten an OpenAI senden zu müssen. Ideal für Unternehmen und Entwickler, die volle Kontrolle über KI-Lösungen benötigen.
•
Google DeepMind stellte Genie 3 vor, ein KI-Modell, das in Echtzeit spielbare, dynamische Welten erzeugt. Nutzer steuern die Umgebung per Pfeiltasten, während neue Bildsequenzen generiert werden. Anwendungsbereiche reichen von Bildung über immersive Geschichten bis zu simuliertem Gameplay. Die Entwicklung könnte die Entstehung einer neuen Gaming-Plattform ähnlich Roblox einleiten.
•
GPT-5 wurde am 7. August 2025 veröffentlicht und setzt mit herausragender Leistung in den Bereichen Mathematik, Naturwissenschaften, Programmierung und allgemeiner Intelligenz neue Maßstäbe. Es passt seine Komplexität automatisch an und unterstützt verschiedene Persönlichkeiten. Die Nutzung ist für alle kostenlos, mit erweitertem Zugriff für Pro- und Team-Abonnenten. Die Integration in Microsoft Copilot und Entwicklerwerkzeuge ist…
•
Es wird vermutet, dass OpenAI Marktwert durch die Preisgestaltung von ChatGPT bei 20 US-Dollar teilweise verloren hat. Die Kurzfassung bietet dazu eine schnelle Einschätzung.
•
Die Studie präsentiert eine selbstüberwachte Methode zur realistischen und physikalisch akkuraten Bildneu-Beleuchtung „in freier Wildbahn“. Sie kombiniert traditionelle Rendering-Physik mit neuronalen Darstellungen und ermöglicht so präzise Lichtsteuerung, bekannt aus 3D-Grafikwerkzeugen, auf realen Fotos.
•
Eine Untersuchung zeigte, dass gpt-oss-120b im privaten Benchmark LiveBench besonders schlecht abgeschnitten hat, obwohl es bei der Veröffentlichung vielversprechend wirkte. Dies wirft Fragen zur Benchmark-Überprüfung und möglichen Anpassungen bei OpenAI auf, ohne jedoch eindeutige Beweise für Manipulation zu liefern.