ARC-AGI misst abstraktes Mustererkennen, eine Herausforderung für große Sprachmodelle. Ein KI-Forscher erzielte einen neuen Rekord von 79,6% auf ARC v2 bei Kosten von 8,42 $ pro Aufgabe und erreichte damit den aktuellen Stand der Technik. Dabei wurde Python-Code gegen reine englische Anweisungen ausgetauscht, was die Leistung verbesserte.
