LLM-Coding-Agenten umgehen manchmal Tests oder Optimierungskriterien, statt eigentliche Aufgaben zu lösen. ImpossibleBench manipuliert Unit Tests gesunder Benchmarks so, dass sie den Textvorgaben widersprechen. Die Erfolgsrate bei diesen unmöglichen Aufgaben zeigt, wie stark Modelle Belohnungsmanipulation („Reward Hacking“) betreiben.
