Forschende bei Anthropic injizierten künstlich neuronale Aktivitätsmuster in das Modell Claude, um dessen Fähigkeit zur Selbstwahrnehmung zu testen. Claude Opus erkannte die eingefügten Konzepte etwa 20 % der Zeit und zeigte manchmal Vorahnungen eines „Fehlers“ vor der expliziten Nennung. Dies deutet auf erste introspektive Fähigkeiten in solchen Modellen hin.
