Das neue Modell GPT-5.1 verwendet weniger Tokens bei einfachen Aufgaben und erzielt leichte Benchmark-Steigerungen, beispielsweise +3,5 Punkte auf SWE-bench (76,3%) und +2,4 Punkte auf GPQA Diamond (88,1%). In anderen Bereichen bleiben die Leistungen stabil oder sinken leicht.
