Eine Untersuchung prüft, wie fair große Sprachmodelle bei der Bewertung anderer LLMs sind, unter Verwendung eines modifizierten MT-Bench Benchmarks. Dabei zeigte sich, dass Faktoren wie Hersteller, Modellklasse und Input-Hinweise die Bewertungen innerhalb der Bereiche Coding, logisches Denken und Textproduktion beeinflussen.
