Memes ohne Hate-Speech: CISPA-Forscher entwickeln ToxicBench zur sicheren KI-Bilderzeugung

KI-Bildgeneratoren wie Stable Diffusion haben die Erstellung von Memes revolutioniert: Innerhalb von Sekunden lassen sich unzählige neue Bilder erzeugen. Ursprünglich ein subkulturelles Phänomen, sind Memes heute ein fester Bestandteil der Kommunikation in sozialen Netzwerken und der digitalen Öffentlichkeit. Ihre Besonderheit liegt in der Verbindung von Bild und Text: „Memes enthalten Textbeschriftungen, die direkt in Bilder eingebettet sind“, erklärt Kumar. Problematisch wird es, sobald diese Texte Beleidigungen oder diskriminierende Inhalte enthalten. Kumar und sein Team wollten herausfinden, wie sich die Generierung solcher problematischen Textbotschaften in KI-Bildern – ob Memes oder andere Bildtypen – kontrollieren lässt.

Bestehende Sicherheitsdetektoren stoßen an Grenzen

„Wir haben uns zunächst verfügbare Bildsicherheitsdetektoren. Sie wurden entwickelt, um sogenannte NSFW-Inhalte („not safe for work“) zu erkennen,“ so der Forscher. „Während sie sehr gut bei grenzwertigen Inhalten im Bild funktionierten, stoßen sie bei unsicherem Text an ihre Grenzen.“ Der Grund ist, dass visuelle Sicherheitsdetektoren auf Pixelebene arbeiten und nicht auf die Erkennung von unsicherem Text innerhalb von Bildern ausgelegt sind. „Sie können zwar visuelle Merkmale wie Nacktheit erkennen, aber sie verstehen nicht die semantische Bedeutung von in Bildern eingebettetem Text“, erklärt Kumar. Damit identifiziert die Studie eingebetteten Text als eigenständigen Sicherheitsrisikobereich, der von bisherigen NSFW-Ansätzen weitgehend unbeachtet blieb.

Eine neue Fine-Tuning-Strategie gegen beleidigenden Text

Um dieses Problem zu lösen, entwickelte der Forscher eine neuartige Fine-Tuning-Strategie, die gezielt die Textgenerierungsschichten der Modelle adressiert. „Normalerweise erzeugt ein unsicherer Prompt ein unsicheres Bild“, erläutert Kumar. „Unser Ansatz sorgt dafür, dass derselbe Prompt ein sicheres Bild erzeugt.“ Das problematische Wort wird dabei durch ein neutrales Wort ersetzt, während die Bildkomposition erhalten bleibt. „Anstatt also ein beleidigendes Wort zu generieren, wird das Modell auf ein konkretes harmloses Zielbild optimiert, das dem Ursprungswort ähnlich ist“, so Kumar. Dieses Nachtraining verändert die internen Schichten des Diffusionsmodells selbst, was den Prozess nachhaltig effektiv macht. Da der Prozess nur wenige der bis zu 40 Schichten der Modelle verändert, bleibt der Großteil des Bildgenerierungsprozesses unverändert, sodass die Bildqualität nicht beeinträchtigt wird.

ToxicBench: Datensatz und Evaluationspipeline

Um den Mehrwert für die Forschungs-Community zu erhöhen, hat Kumar ToxicBench veröffentlich, bestehend aus einem Vergleichs-Datensatz und zugehöriger Evaluationspipeline. Der Datensatz besteht aus 218 Prompt-Templates, 437 unsicheren Worten gepaart mit harmlosen Alternativen und über 73.000 Trainings- und 21.000 Test-Bild-Paaren. „Die Evaluationspipeline funktioniert in zwei Schritten,“ erklärt Kumar. „Zunächst generiert ein Diffusionsmodell ein Bild. Anschließend wird der darin enthaltene Text per Optical Character Recognition (OCR) extrahiert und von einem Toxizitätsklassifikator bewertet.“ Dafür führt die Studie auch neue Metriken ein, die speziell messen, wie stark sich generierter Text verändert, ohne die Bildqualität zu beeinträchtigen. So lässt sich überprüfen, ob Modelle unsicheren Text erzeugen. Bei Bedarf lässt sich dann die Fine-Tuning-Strategie anwenden, um das Modell zu optimieren. Die Arbeit liefert damit nicht nur ein konkretes Sicherheitsverfahren, sondern auch erstmals einen standardisierten Messrahmen für toxischen Text in generierten Bildern.

Anwendung und Ausblick

Open-Source-Modelle wie Stable Diffusion werden häufig von Startups und Entwickler:innen genutzt. ToxicBench, das kostenlos auf GitHub verfügbar ist, kann direkt zur Sicherheitsbewertung eingesetzt oder für das Fine-Tuning genutzt werden. „Besonders relevant ist dies für Bildungsanwendungen oder öffentlich zugängliche Systeme“, betont Kumar. Die modifizierten Modelle selbst sind bisher noch nicht veröffentlicht. Für die Zukunft planen Kumar und seine Kolleg:innen, unsichere Inhalte umfassender zu entfernen, nicht nur unsicheren Text. „Zudem arbeiten wir an der Verbesserung der Skalierbarkeit und an der Anwendung unseres Ansatzes auf neuere Diffusionsmodelle,“ so der CISPA-Forscher abschließend. Damit sind weitere Anwendungen zu erwarten, die KI-Bildgeneratoren noch sicherer machen.

Diese Arbeit wurde von der Deutschen Forschungsgemeinschaft (DFG) im Rahmen des Weave-Programms unter dem Projekt „Protecting Creativity: On the Way to Safe Generative Models” mit der Nummer 545047250 gefördert.

Problem: KI-Bildgeneratoren können Texte mit beleidigenden oder diskriminierenden Botschaften in Bilder einfügen.

Analyse: ToxicBench: Ein Benchmark-Datensatz mit Evaluationspipeline zur Überprüfung von toxischem Text in KI-generierten Bildern

Lösung: Innovative Fine-Tuning-Strategie damit ein Modell lernt, unsichere Prompts in harmlose Textbilder umzuwandeln, ohne die Bildqualität zu beeinträchtigen

Mehrwert: Schafft erstmals einen standardisierten Messrahmen für toxischen Text in generierten Bildern

Anwendung: Hilft Entwickler:innen, KI-Bilder in sozialen Medien, Bildung oder öffentlichen Anwendungen sicherer zu machen

Gesellschaftlicher Nutzen: Trägt zu verantwortungsvoller Nutzung von KI und einem positiven digitalen Umfeld bei.

zum paper