•
Die Version 3 von Depth Anything (DA3) kann räumlich konsistente Tiefenschätzungen aus Einzel- oder Mehrfachbildern erstellen, unabhängig von Kameraposen. Dafür nutzt das System einen einfachen Transformer-Backbone und eine einheitliche Tiefenstrahl-Repräsentation, was Architektur und Training vereinfacht.
•
Das Verfahren GAD ermöglicht das „Distillieren“ von Wissen aus Black-Box-Sprachmodellen nur anhand generierter Texte, ohne Zugriff auf deren Wahrscheinlichkeitsausgaben. Ein Studentenmodell wird durch adversariales Lernen gegen einen Diskriminator trainiert und kann dadurch effizient auf Policy-basierte Weise imitieren.
•
Die Claude API bietet nun im öffentlichen Beta-Zugang strukturierte Ausgaben für die Modelle Sonnet 4.5 und Opus 4.1, um zuverlässig gültige JSON-Daten zu liefern. Diese Einschränkung verhindert fehlerhafte oder unbrauchbare Antworten, die Anwendungen stören könnten. Die Unterstützung für Haiku 4.5 folgt in Kürze.
•
Der Artikel erläutert, wie das Amp-Framework die Verwaltung des Kontextfensters ermöglicht, in dem alle Nachrichten, Antworten, Werkzeugaufrufe und Denkbausteine eines großen Sprachmodells gesammelt werden. Ein effektives Management dieses Fensters ist entscheidend für die korrekte und effiziente Nutzung von Sprachmodellen.
•
FutureHouse, bald Edison Scientific, hat einen KI-gestützten Wissenschaftler namens Kosmos veröffentlicht, der 1.500 Forschungsarbeiten liest und umfangreiche Analyse-Codes ausführt. Beta-Nutzer schätzen, dass eine Kosmos-Ausführung sechs Monate menschlicher Arbeit ersetzt, mit einer Genauigkeit von 79,4%. Kosmos hat bereits sieben bedeutende Entdeckungen gemacht, darunter eine validierte Alzheimer-Einsicht.
•
Ein neuer Beitrag analysiert, wie man mit weniger Daten durch optimale Mischung von Datensätzen bei Vortraining von Sprachmodellen hohe Leistung erreicht. Dabei werden Strategien, Fehlerquellen bei Lehrplänen und der optimale Anteil synthetischer Inhalte beleuchtet. Die richtige Mischung übertrifft komplexe Curriculum-Ansätze und liefert stabile Verallgemeinerung.
•
Der Artikel „The Bitter Lessons“ beschreibt die KI-Entwicklung nicht als klassischen Wettlauf mit klaren Grenzen, sondern als ein offenes Feld mit unbekanntem Ziel. USA und China verfolgen unterschiedliche Strategien basierend auf ihren Stärken und befinden sich in einem strukturellen Konflikt, bei dem Harmonie kaum möglich scheint.
•
Anstatt nur nach dem besten Werkzeug zu fragen, empfiehlt Miro, zu klären, welcher Ansatz am schnellsten von der Idee zur Zusammenarbeit führt. Ihr Leitfaden bietet Fragen, ein Entscheidungsrahmenwerk und Bewertungskriterien, um passende Tools für KI-Prototyping effektiv auszuwählen.
•
Google plant, nächste Woche Gemini 3 sowie das Nano Banana Pro-Gerät vorzustellen. Die Gemini-Modelle werden traditionell gleichzeitig über das gesamte Portfolio aktualisiert. Das „Pro“-Label deutet darauf hin, dass Google zugängliche und produktionsreife generative KI-Tools in seinem Plattform-Ökosystem anbieten wird.
•
GPT-5.1 wird aktuell für Nutzer eingeführt und bietet acht verschiedene Chat-Stile, die es einfacher machen, Ton und Stil individuell anzupassen. Ein aktuelles „Ask Me Anything“ auf Reddit ermöglicht Fragen an Mitglieder des OpenAI-Teams zu den neuen Features und Hintergründen.