Eine Untersuchung zeigte, dass gpt-oss-120b im privaten Benchmark LiveBench besonders schlecht abgeschnitten hat, obwohl es bei der Veröffentlichung vielversprechend wirkte. Dies wirft Fragen zur Benchmark-Überprüfung und möglichen Anpassungen bei OpenAI auf, ohne jedoch eindeutige Beweise für Manipulation zu liefern.
