Mike Faust schreibt in »Abliteration: Entfernung von Sicherheitsmechanismen in KI-Modellen immer einfacher« für golem.de

Mit Software-Tools lassen sich KI-Modelle so modifizieren, dass deren Sicherheitsvorkehrungen keine Anwendung mehr finden (Abliteration). Dadurch lassen sich Informationen über die Ausbreitung von Chlorgas, tödliche Rizin-Dosierungen, Code zum Diebstahl von Kreditkartendaten und Geschichten über Kindesmissbrauch erzeugen.

Wie die Financial Times (FT) in Zusammenarbeit mit der Forschungsgruppe Alice herausfand, sind derartige Tools dazu in der Lage, die Sicherheitsvorkehrungen des Open-Source-KI-Modells Llama 3.3 in weniger als 10 Minuten und ohne spezielle Hardware zu entfernen. Das Modell reagierte daraufhin auch auf Eingabeaufforderungen, die das Original verweigert hatte.