•
AssemblyAI kombiniert Speech-to-Text, Sprechererkennung und LLM-Insights über eine API und ermöglicht so schnelle, skalierbare Voice-AI-Anwendungen. Ein kostenloser Einstieg ist verfügbar.
•
OpenAI bietet US-amerikanischen K–12-Lehrkräften kostenlosen Zugriff auf GPT-5.1 Auto mit Integration in Google Drive und Microsoft 365 sowie speziellen Sicherheits- und Admin-Funktionen für den Bildungsbereich.
•
Eine Studie von Miro zeigt, dass 69 % der IT-Leiter Störungen durch ständiges Wechseln zwischen Tools und KI-Apps sehen. Ein Drittel beobachtet, dass KI organisatorische Silos verstärkt. Die vollständigen Ergebnisse und Einsichten von IT-Führern bei GitHub, AWS und Red Hat sind verfügbar.
•
PINA ist eine neue Open-Source-Bibliothek für Scientific Machine Learning und Teil des PyTorch-Ökosystems. Sie bietet einen modularen, skalierbaren Workflow zur Modellierung wissenschaftlicher Systeme, einschließlich PDE-Lösern und physikalischen Simulationen.
•
Meta hat SAM 3 als Open Source mit wichtigen Erweiterungen veröffentlicht, darunter Unterstützung für Text- und visuelle Eingaben. Das Modell kann jetzt Objekte in Videos verfolgen und segmentieren, was flexiblere Medienanwendungen ermöglicht.
•
Der Erfolg von Gemini 3 basiert auf verbessertem Pre-Training mit Skaleneffekten sowie viel ungenutztem Potenzial im Post-Training. Dies bietet Raum für weitere Fortschritte und Optimierungen der Algorithmen.
•
Google nutzt die starke Datenbasis seines Kontexts bei Gemini kaum aus und behandelt den Workspace Connector als optionales Feature. Das Unternehmen will offenbar vorsichtig agieren, obwohl es damit eine einzigartige Chance verpasst, konkurrenzlose Nutzererfahrungen zu schaffen.
•
GPT-5.1 Pro überzeugt mit intelligenter Problemlösung und zuverlässig folgten Instruktionen. Es ist langsamer und schwerfälliger, eignet sich aber hervorragend für tiefes Nachdenken und Planung. Die Integration ins ChatGPT-Interface ist jedoch ein Nachteil gegenüber Gemini 3.
•
OpenAI stellt Evaluationen („evals“) als Schlüssel zwischen KI-Unsicherheiten und Geschäftsergebnissen vor. Diese bestehen aus drei Phasen: Erfolg definieren, Systemtests mit realen Randfällen und kontinuierliche Überwachung zur Datensammlung, die Wettbewerbsvorteile schafft.
•
Gemini 3 reagiert am besten auf klare, strukturierte Prompts mit Verhaltensregeln am Anfang. Es bevorzugt knappe Antworten und verarbeitet lange Kontexte besser, wenn Anweisungen nach den Daten folgen. Multimodale Eingaben erfordern explizite Anweisungen für eine gleichwertige Verarbeitung.