E-mail senden E-Mail Adresse kopieren

2024-10-28
 

Prompt Stealing: CISPA-Forscherin entdeckt neues Angriffsszenario für Text-zu-Bild-Generatoren

In einer im Sommer beim USENIX Security Symposium 2024 vorgestellten Studie mit dem Titel „Prompt Stealing Attacks Against Text-to-Image Generation Models“ weist CISPA-Forscherin Xinyue Shen nach, dass Reverse Engineering auch bei KI-generierten Bildern erfolgreich sein kann. Mit Hilfe eines von ihr entwickelten Tools namens PromptStealer gelang es Shen und ihren Kolleg:innen, aus KI-generierten Bildern den ursprünglichen Prompt zu extrahieren. Damit deckt sie ein neues Angriffsszenario für Text-zu-Bild-Generatoren auf und liefert mit PromptShield zugleich auch einen Schutzmechanismus mit.

Aufgrund des immensens Qualitätssprung der generierten Ergebnisse erfreuen sich KI-Bildgeneratoren zuletzt großer Beliebtheit. Die meisten Bildgeneratoren wie Stable Difussion oder DALL-E sind Text-zu-Bild-Generatoren. Ein entscheidender Faktor, um ein perfektes Bild generieren zu können, sind präzise Texteingaben, die sogenannten Prompts. Da dafür ein sehr spezialisiertes Wissen erforderlich ist, hat sich mit den Prompt Engineers ein eigener Berufszweig entwickelt. Bei KI-Bildern gibt es jedoch eine weitere Besonderheit, erklärt CISPA-Forscherin Xinyue Shen: „Um ein Bild in einem bestimmten Stil zu bekommen, braucht es neben einer präzisen Beschreibung noch einen sogenannten Modifier, der den Bildstil beschreibt. Ohne diesen sind Ergebnisse eher willkürlich“.

Aber noch etwas anderes erregte Shens Aufmerksamkeit: „Mir fiel auf, dass aufgrund der Bedeutung von Prompts ein eigener Markt hierfür entstanden ist“ so Shen. „Auf Plattformen wie Promptbase verkaufen Prompt-Engineers ihre Texteingaben zur Generierung von KI-Bildern“. Interessent:innen können mit wenigen Klicks und wenigen Euro Investition einen Prompt für ein bestimmtes Bild erwerben und ersparen sich damit zeitraubendes Ausprobieren. Aber mit neuen digitalen Marktplätzen sind oft auch neue Angriffsszenarien verbunden. „Wir wollten herausfinden, ob es eine Möglichkeit gibt, die Prompts zu bekommen, ohne dafür zu bezahlen“, erzählt Shen. „Dieses Szenario haben wir Prompt Stealing genannt“. Die Forscher verstehen darunter die Extraktion des Prompts aus einem KI-generierten Bild ohne Einwilligung des Prompt Engineers, was Plattformen wie Promptbase die ökonomische Grundlage entziehen würde.

Ein neues Tool namens PromptStealer

Da erste Versuche, den Prompt über einen Text Decoder zu generieren, nicht zu den gewünschten Ergebnissen führten, machte sich Shen an die Entwicklung eines eigenen Tools. Grundlegend war ihre Erkenntnis, dass für einen präzisen Prompt sowohl die Bildbeschreibung als auch ein spezifischer Modifier entscheidend sind. „Wir haben der neuen Methode den Namen PromptStealer gegeben“ erzählt Shen. „Da sowohl das Subjekt als auch die Modifikatoren wichtig sind, lösen wir das Problem in unserem Tool Schritt für Schritt. Zunächst verwenden wir einen Motivgenerator, um das im Bild dargestellte Motiv zu erhalten. Dann verwenden wir einen Detektor für die Modifier, um diese ebenfalls präzise vorherzusagen“. Über eine quantitative und qualitative Analyse konnte die CISPA-Forscherin nachweisen, dass PromptStealer bessere Ergebnisse liefert, als andere Methoden wie Image Captioning oder CLIP Interrogator. So waren die mithilfe der Prompts aus dem PromptStealer generierten KI-Bilder dem Originalbild am ähnlichsten.

PromptShield zur Verhinderung von Attacken

Als Cybersicherheitforscher:innen haben sich Shen und ihre Kolleg:innen auch Gedanken darüber gemacht, wie sich Prompt Stealing Attacken verhindern lassen. „Eine naheliegende Idee war zu überlegen, wie wir die Leistung der Machine-Learning-Modelle verringern können“ erklärt die CISPA-Forscherin. „Damit wollten wir verhindern, dass Modelle wie PromptStealer den benutzten Modifier erkennen können. Denn das Erkennen der exakten Modifier ist entscheidend für einen präzisen Prompt“. Dies zu verhindern gelang ihr über das Hinzufügen von Störungen zum KI-generierten Bild. Wie relevant das von Shen entdeckte Angriffs-Szenario ist, zeigt sich daran, dass es bereits vom Softwarekonzern Microsoft in die Vulnerability Severity Classification for AI Systems aufgenommen wurde. Die Daten ihrer Studie stellt die CISPA-Forscherin im Internet frei zur Verfügung. Dazu zählt zum einen ein kuratiertes Datenset mit 61.467 KI-generierten Bildern von der Plattform Lexica, als auch der Code ihres Tools PromptStealer.