Fast ein Drittel der Antworten im „Letzten Examens“-AI-Benchmark sind fehlerhaft

Innovatives AugmentERA Team entwickelt Augmented Reality Lösungen in modernem Büro.

Vielen Dank für Ihren Besuch und Ihr Interesse!

Für mehr Informationen über KI und die Integration in Ihr Unternehmen, treten Sie mit uns in Kontakt

Connect with us

Oder nehmen Sie an unserer Umfrage für eine kostenlose Analyse teil

Zur Umfrage

Forscher von FutureHouse fanden heraus, dass etwa 30% der Antworten zu Biologie- und Chemiefragen in dem prominenten PhD-level AI Benchmark HLE durch überprüfte Fachliteratur widerlegt werden. Das Design von HLE bewirkt besonders anspruchsvolle „Fallen“-Fragen, die selbst menschliche Experten verwirren.