Forscher von FutureHouse fanden heraus, dass etwa 30% der Antworten zu Biologie- und Chemiefragen in dem prominenten PhD-level AI Benchmark HLE durch überprüfte Fachliteratur widerlegt werden. Das Design von HLE bewirkt besonders anspruchsvolle „Fallen“-Fragen, die selbst menschliche Experten verwirren.
