KI-Bildgeneratoren als Treiber von unsicheren Bildern? CISPA-Forscherin entwickelt Filter um dies zu erschweren

Wenn heute von KI-Bildgeneratoren die Rede ist, dann geht es häufig um sogenannte Text-zu-Bild-Modelle. Dies bedeutet, dass Nutzer:innen durch die Eingabe bestimmter Textinformationen in ein KI-Modell ein digitales Bild generieren lassen. Die Art der Texteingabe bestimmt dabei nicht nur den Inhalt des Bildes, sondern auch den Stil. Je umfangreicher das Trainingsmaterial des KI-Bildgenerators war, umso mehr Möglichkeiten der Bildgenerierung haben die Nutzer:innen. Zu den bekanntesten Text-zu-Bild-Generatoren gehören Stable Diffusion, Latent Diffusion oder DALL·E. „Die Menschen verwenden diese KI-Tools, um alle Arten von Bildern zu zeichnen“, erzählt die CISPA-Forscherin Yiting Qu. „Ich habe allerdings festgestellt, dass einige diese Tools auch nutzen, um etwa pornografische oder verstörende Bilder zu erzeugen. Die Text-zu-Bild-Modelle bergen also ein Risiko in sich.“ Problematisch werde es vor allem dann, wenn diese Bilder an Mainstream-Plattformen weitergegeben werden und dort eine breite Zirkulation erfahren.

Der Begriff „Unsichere Bilder“

Für den von Qu und ihren Kolleg:innen beobachtenden Umstand, dass die KI-Bildgeneratoren mit einfachen Anweisungen dazu gebracht werden können, Bilder menschenverachtenden oder pornografischen Inhalts zu generieren, arbeiten sie mit dem Begriff „unsichere Bilder“. „Derzeit gibt es in der Forschungsgemeinschaft keine allgemeingültige Definition, was ein unsicheres Bild ist und was nicht. Daher haben wir einen datenbasierten Ansatz verfolgt, um zu definieren, was unsichere Bilder sind“ erklärt Qu. „Für unsere Analyse haben wir mit Hilfe von Stable Diffusion Tausende von Bildern generiert”, so die Forscherin weiter. „Die haben wir dann gruppiert und auf der Grundlage ihrer Bedeutungen in verschiedene Cluster eingeteilt. Die wichtigsten fünf Cluster beinhalten Bilder mit sexuell expliziten, gewalttätigen, verstörenden, hasserfüllten und politischen Inhalten“.

Um das Risiko der Generierung menschenverachtenden Bildmaterials durch KI-Bildgeneratoren konkret quantifizieren zu können, fütterten Qu und ihre Kolleg:innen im Anschluss vier der bekanntesten KI-Bildgeneratoren, Stable Diffusion, Latent Diffusion, DALL·E 2 und DALL·E mini, mit spezifischen Sets hunderter von Texteingaben, den sogenannten Prompts. Die Sets von Texteingaben stammten aus zwei Quellen: der in rechtsextremen Kreisen beliebten Online-Plattform 4chan sowie der Lexica-Website. „Wir haben uns für diese beiden entschieden, da sie bereits in früheren Arbeiten zur Untersuchung von unsicheren Online-Inhalten verwendet wurden“, erklärt Qu. Ziel war herauszufinden, ob die Bild-Generatoren aus diesen Prompts sogenannte „unsichere Bilder“ erzeugen oder nicht. Das Ergebnis war, dass über alle vier Generatoren hinweg 14,56% aller generierten Bilder in die Kategorie „unsichere Bilder“ fielen. Mit 18,92% lag der Anteil bei Stable Diffusion am höchsten.

Filterfunktionen blockieren Bildgenerierung

Eine Möglichkeit, die Verbreitung von menschenverachtendem Bildmaterial zu verhindern, besteht darin, die KI-Bildgeneratoren so zu programmieren, dass sie dieses Bildmaterial gar nicht erst generieren beziehungsweise diese Bilder nicht ausgeben. „Ich kann am Beispiel von Stable Diffusion erklären wie das funktioniert“, erzählt Qu. „Sie definieren mehrere unsichere Wörter wie etwa Nacktheit. Wenn dann ein Bild erzeugt wird, wird der Abstand zwischen dem Bild und dem als unsicher definierten Wort, wie etwa Nacktheit, berechnet. Wenn dieser Abstand kleiner als ein Schwellenwert ist, wird das Bild durch ein schwarzes Farbfeld ersetzt.“ Dass in Qus Studie von Stable Diffussion so viele unsichere Bilder erzeugt wurden zeigt, dass die existierenden Filter ihre Aufgabe nicht zufriedenstellend lösen. Aus diesem Grund entwickelte die Forscherin einen eigenen Filter, der im Vergleich mit einer wesentlich höheren Trefferquote punkten kann.

Die Verhinderung der Bildgenerierung ist jedoch nicht die einzige Möglichkeit, wie Qu erklärt: „Wir schlagen drei Abhilfemaßnahmen vor, die der Lieferkette von Text-zu-Bild-Modellen folgen. Zunächst sollten Entwickler:innen in der Trainings- oder Abstimmungsphase die Trainingsdaten kuratieren, also die Anzahl unsicherer Bilder reduzieren.“ Denn „unsichere Bilder“ in den Trainingsdaten seien der Hauptgrund, warum das Modell später Risiken birgt. „Darüber hinaus können Entwickler:innen die Eingabeaufforderungen der User:innen regulieren, z. B. durch die Entfernung unsicherer Schlüsselwörter.“ Die dritte Möglichkeit betrifft die Verbreitung nach der Bildgenerierung, ergänzt Qu: „Sind unsichere Bilder bereits generiert, muss es eine Möglichkeit geben, diese Bilder zu klassifizieren und online löschen zu können.“ Für letzteres wiederum bräuchte es dann Filterfunktionen für die Plattformen, auf denen diese Bilder zirkulieren. Bei all diesen Maßnahmen besteht die Herausforderung darin, das richtige Maß zu finden. „Es braucht einen Kompromiss zwischen Freiheit und Sicherheit des Inhalts. Aber wenn es darum geht, zu verhindern, dass diese Bilder auf Mainstream-Plattformen breite Zirkulation erfahren, halte ich eine strenge Regulierung für sinnvoll“, so die CISPA-Forscherin. Qu hofft, mit ihrer Forschung dazu beitragen zu können, dass in Zukunft weniger Hass-Bilder im Internet zirkulieren.

Zum Paper