Forschende von Scale AI entwickelten einen Ansatz, der Checklist-basierte Rubriken statt klassischer Präferenzbewertungen nutzt, um Sprachmodelle für subjektive Aufgaben zu trainieren. Dieser Ansatz verbesserte medizinische Denk-Tests um bis zu 28 % durch die Aufteilung der Antwortqualität in nachvollziehbare Kriterien wie Faktengenauigkeit und Vollständigkeit.
