Der Tau²-Benchmark misst, wie gut KI-Agenten in realistischen, werkzeuggestützten Szenarien abschneiden. Eine einfache Umformulierung des Prompts erhöhte die Erfolgsquote eines kleinen Modells um über 20%. Die Studie zeigt, dass durch klare, verständliche und schrittweise Anweisungen insbesondere kleinere Modelle deutlich leistungsfähiger werden.
