Augmentor

  • Skills vs dynamische MCP-Loadouts bei Agenten

    Die einfachste Methode, um mit Tools zu arbeiten, besteht darin, dass Agenten ihre eigenen Tools als Skills programmieren. Das gibt Nutzern Kontrolle und ermöglicht Anpassungen bei Bedarf. Während dynamisches Toolloading mit MCP wahrscheinlich künftig kommt, sind dafür noch zahlreiche Protokolländerungen nötig, etwa für skillähnliche Zusammenfassungen und integrierte Anleitungen zu den Tools.

  • Veo-Welt-Simulator bewertet Gemini-Roboter-Strategien

    Google nutzt sein Video-Generierungsmodell Veo als Welt-Simulator, um vorherzusagen, wie Robotik-Algorithmen in neuen Umgebungen ohne physische Tests abschneiden. Über 1.600 simulierte Abläufe ermöglichten das präzise Ranking von acht Policy-Versionen und deckten Sicherheitsrisiken auf, etwa wie ein Roboter einen Laptop umstößt oder eine Flasche zu fest greift.

  • OpenAI schafft ‚Vesting Cliff‘ für neue Mitarbeiter ab

    OpenAI hat die zuvor bestehende Regel abgeschafft, nach der Mitarbeiter erst nach sechs Monaten im Unternehmen ihre Aktienoptionen erhalten konnten. Diese Änderung soll neue Mitarbeiter motivieren, Risiken einzugehen, ohne Angst vor einem frühen Ausscheiden zu haben. Bereits im April hatte OpenAI die Vesting-Periode von zwölf auf sechs Monate verkürzt. Ähnliche Änderungen wurden von xAI…

  • Große Sprachmodelle: AGI trotz schlechter Rechenfähigkeiten?

    Obwohl große Sprachmodelle nützlich sind, fehlen ihnen kognitive Fähigkeiten auf menschlichem Niveau, etwa im Umgang mit arithmetischen Aufgaben. Die aktuellen Modelle werden kaum darauf trainiert, präzise Urteile zu fällen, selbst bei kleinen Datensätzen. Effizientere Methoden, um Daten ohne hohe Token-Kosten einzubinden und an Tools weiterzugeben, sind nötig, um die Effektivität der Werkzeugnutzung deutlich zu…

  • Warum Prompt-Tuning allein nicht ausreicht – Agentenmanagement verstehen

    Viele Unternehmen scheitern daran, verlässliche Ergebnisse mit KI-Agenten zu erzielen, weil sie sich zu sehr auf das Feinjustieren von Prompts konzentrieren. Eine Anleitung von You.com beschreibt die fünf Entwicklungsstufen erfolgreicher KI-Agenten und zeigt, warum viele Organisationen diese noch nicht erreicht haben. Der Artikel bietet wertvolle Einblicke in modernes Agentenmanagement.

  • Mit OpenAI Codex in 28 Tagen Sora für Android gebaut

    Ein schlankes Entwicklerteam baute die erste Version der Sora-Android-App in nur 28 Tagen mithilfe von OpenAI Codex und etwa 5 Milliarden Tokens. Die App weist eine Absturzfreiheit von 99,9 % auf. Der Artikel beschreibt, wie OpenAI die GPT-5.1-Codex-Variante – die auch extern verfügbar ist – für die Entwicklung nutzte.

  • Tinker jetzt mit visueller Eingabe und allgemeiner Verfügbarkeit

    Tinker ist nun allgemein verfügbar und bringt ein neues Denkmodell namens Kimi K2 Thinking sowie eine OpenAI-API-kompatible Schnittstelle mit. Dank Qwen3-VL-Modellen kann Tinker jetzt Bild- und Texteingaben gleichzeitig verarbeiten, was vor allem bei Bildklassifizierungen mit begrenztem beschriftetem Datenmaterial bemerkenswerte Verbesserungen bringt.

  • Analyse von Claudes Gedächtnissystem über Reverse Engineering

    Claude nutzt ein Gedächtnissystem mit bedarfsgesteuerten Werkzeugen und selektiver Informationsabrufung. Durch Gespräche mit Claude wurde das System untersucht, wobei der Bot offen und kooperativ über seine interne Struktur, verwendete Werkzeuge und Prompt-Formate Auskunft gab. Es wird jedoch darauf hingewiesen, dass Claude gelegentlich Halluzinationen zeigen kann, sodass nicht alle Informationen akkurat sein müssen.

  • Text-Diffusionsmodelle schreiben Code effizienter

    Diffusions-Sprachmodelle generieren Code schneller als große Sprachmodelle, da strukturierte Ausgaben geringere Entropie aufweisen und somit mehr Token parallel pro Schritt decodieren können. Tests zeigen, dass vor allem die Struktur des Outputs für die Geschwindigkeit relevant ist, nicht etwa die Erinnerung an Trainingsdaten.

  • Verbesserungen am Mintlify AI-Assistenten

    Mintlifys KI-Assistent unterstützt Nutzer beim Finden von Antworten in Dokumentationen mit klaren Quellenangaben und nützlichen Codebeispielen. Das Team verbesserte den Assistenten durch eine neu aufgesetzte Feedback-Pipeline, Speicherung der Konversationsdaten in ClickHouse und umfangreiche Kategorisierung negativer Interaktionen. Die Analyse zeigte, dass die Suchqualität die größte Schwäche darstellt, während andere Antworten meist gut sind.