Schon wenige manipulierte Trainingsbeispiele können LLMs schädigen

Eine Untersuchung von Anthropic, UK AI Security Institute und Alan Turing Institute zeigt, dass bereits 250 vergiftete Dokumente kleine bis große Sprachmodelle mit Backdoors ausstatten können. Der Angriffserfolg hängt von der absoluten Zahl vergifteter Daten ab, nicht vom Anteil innerhalb des Trainingssets. Getestet wurden DoS-Backdoors, die bei Triggerwörtern wie „SUDO“ unsinnige Ausgaben provozieren.