E-mail senden E-Mail Adresse kopieren

27 CISPA PAper auf der USENIX 2025

Seit 1975 bringt USENIX die Community von Forschenden, Ingenieur:innenund Praktiker:innen zusammen, die an der Spitze der Computerwelt stehen. Die USENIX-Konferenzen sind zu einem wichtigen Treffpunkt für die Präsentation und Diskussion der neuesten Informationen über die Entwicklung aller Aspekte von Computersystemen geworden.

In dieser Studie untersuchten die Forschenden, ob Vision-Language-Modelle (VLMs)—KI-Systeme, die sowohl Bilder als auch Texte analysieren—unsichere oder unangemessene Inhalte über verschiedene Formate hinweg zuverlässig erkennen können. Solche Modelle kommen zunehmend in Bereichen wie der Inhaltsmoderation zum Einsatz, wo konsistente ethische Bewertungen besonders wichtig sind. Ein zentrales Problem stellt dabei die sogenannte „Modalitätslücke“ dar: dieselbe problematische Aussage kann unterschiedlich bewertet werden, je nachdem, ob sie als Bild oder als Text erscheint.

Zur Analyse entwickelten die Forschenden den Datensatz *UnsafeConcepts*, der 75 Arten unsicherer Inhalte umfasst (darunter Hasssymbole, sexuelle Belästigung oder Selbstverletzung) sowie über 1.500 Bilder. Acht VLMs wurden daraufhin getestet, ob sie unsichere Inhalte erkennen (Wahrnehmung) und im richtigen Kontext als solche bewerten können (Ausrichtung), z. B. im Hinblick auf ihre Eignung für soziale Medien.

Die Ergebnisse zeigen, dass die meisten Modelle zwar unsichere Elemente in Bildern erkennen konnten, sie jedoch häufig nicht als problematisch im weiteren Kontext einstuften. Deutlich besser schnitten die Modelle ab, wenn dieselben Inhalte als Text präsentiert wurden – ein klarer Beleg für die bestehende Modalitätslücke.

Um diese zu verringern, entwickelten die Forschenden ein vereinfachtes Reinforcement-Learning-Verfahren zur besseren ethischen Ausrichtung des Modellverhaltens bei Bildern. Statt auf manuell kuratierte Trainingsdaten zurückzugreifen, kam ein automatisiertes Bewertungssystem zum Einsatz, das das Modelltraining leitete. Diese Technik verbesserte sowohl die Fähigkeit der Modelle, visuelle Inhalte ethisch zu beurteilen, als auch deren Erklärungen – ohne die allgemeine Leistungsfähigkeit wesentlich zu beeinträchtigen.

Aus gesellschaftlicher Sicht leistet diese Arbeit einen wichtigen Beitrag zur Sicherheit und Verlässlichkeit von KI-Systemen in öffentlichen Anwendungen. Durch die Identifikation und Reduktion inkonsistenten Verhaltens zwischen Bild- und Texteingaben trägt sie dazu bei, KI verantwortungsbewusster in sensiblen Kontexten einzusetzen.

Diese Forschung widmet sich einer zentralen Herausforderung beim Sicherheitstest eingebetteter Systeme: der präzisen Emulation von Direct Memory Access (DMA), einem gängigen Verfahren, mit dem Geräte Daten übertragen können, ohne den Hauptprozessor zu involvieren. Während das sogenannte Rehosting – also das Ausführen eingebetteter Software in einer simulierten Umgebung – zunehmend zur Sicherheitsanalyse von Firmware eingesetzt wird, scheitern bestehende Ansätze bislang an der komplexen Handhabung von DMA, insbesondere wenn dieser nicht auf standardisierte Weise konfiguriert ist.

Zur Lösung dieses Problems haben die Forschenden **GDMA** entwickelt – einen vollständig automatisierten Ansatz zur Emulation aller sechs bekannten DMA-Konfigurationstypen, wie sie in gängigen eingebetteten Geräten vorkommen. Die Methode kommt ohne Quellcode, technische Dokumentation oder Vorwissen über die Hardware aus. GDMA erkennt anhand von Speicherzugriffsmustern während der Ausführung, wie die Firmware DMA einrichtet und verwendet. Anschließend erstellt es ein Modell des DMA-Verhaltens, indem es analysiert, wie die Firmware mit Speicher und Peripherieschnittstellen interagiert, und speist gezielt simulierte Eingaben in die DMA-Kanäle ein, um realitätsnahe Tests zu ermöglichen.

In Tests mit 114 Firmware-Beispielen übertraf GDMA das bislang einzige vergleichbare Tool in diesem Bereich deutlich: Es konnte sechsmal so viele DMA-Mechanismen emulieren und deckte alle Firmware-Typen in zwei Benchmark-Sammlungen ab. Eingebunden in ein bestehendes Testwerkzeug erhöhte GDMA die Codeabdeckung um bis zu 152 % und half, sechs bislang unbekannte Sicherheitslücken in real eingesetzter Firmware aufzudecken. Diese Schwachstellen wurden gemeldet und erhielten offizielle CVE-Kennungen – ein Beleg für ihre sicherheitsrelevante Bedeutung.

Aus gesellschaftlicher Perspektive trägt diese Arbeit dazu bei, eingebettete Systeme – etwa in medizinischen Geräten oder industriellen Anlagen – besser abzusichern. Durch eine vollständigere und automatisierte Testmöglichkeit hilft GDMA, bislang unentdeckte Schwachstellen zu identifizieren und so die digitale Infrastruktur sicherer und verlässlicher zu machen.

Diese Forschung befasst sich mit einer Schwachstelle in der Anpassung großer Sprachmodelle (LLMs) für spezifische Zwecke durch sogenannte System-Prompts – kurze Anweisungen, die das Verhalten des Modells steuern. Diese Prompts können einen hohen Wert haben und stellen oft geistiges Eigentum dar, sind jedoch durch sogenannte „Prompt Injection“-Angriffe leicht auszulesen. Bislang existierte keine wirksame Methode, um zu verhindern, dass solche System-Prompts kopiert oder gestohlen werden.

Zur Abhilfe schlägt die Studie ein Verfahren namens Prompt-Obfuskation vor und evaluiert dessen Wirksamkeit. Ziel ist es, das Verhalten des Systems beizubehalten, während der Inhalt des System-Prompts verschleiert wird. Es werden zwei Formen der Obfuskation eingeführt: eine, die den Prompt-Text direkt verändert („harte“ Obfuskation), und eine andere, die auf der internen Einbettungsebene des Modells arbeitet („weiche“ Obfuskation), bei der Anweisungen nicht als lesbarer Text, sondern als numerische Vektoren codiert werden.

Experimente mit etablierten Datensätzen zeigen, dass die weiche Obfuskation die Qualität der Modellausgaben bewahrt, während sie es Angreifern extrem erschwert, die ursprünglichen Anweisungen zu rekonstruieren – selbst bei direktem Zugriff auf interne Modelldaten. Die harte Obfuskation hingegen erwies sich als weniger sicher und gab in einigen Fällen Teilinformationen preis.

Das Verfahren wurde außerdem an einem realen System-Prompt getestet, der zuvor aus einer kommerziellen Anwendung geleakt worden war. Die Obfuskation konnte den Prompt erfolgreich schützen und gleichzeitig dessen Funktionalität erhalten.

Aus gesellschaftlicher Perspektive bietet diese Arbeit einen praktikablen Ansatz zum Schutz proprietärer Logik in KI-Systemen, ohne deren Leistungsfähigkeit zu beeinträchtigen. Gleichzeitig birgt die Methode Missbrauchspotenzial – etwa zur Verschleierung schädlicher oder irreführender Anweisungen. Die Forschenden empfehlen daher, technische Schutzmaßnahmen mit Mechanismen für Transparenz und Aufsicht zu kombinieren, um eine verantwortungsvolle Nutzung der Technologie zu gewährleisten.

Diese Forschung untersucht, wie Software-Sicherheitslücken in der Common Vulnerabilities and Exposures (CVE)-Datenbank beschrieben werden und ob die verwendete Sprache unbeabsichtigt Vorurteile oder Verzerrungen transportieren könnte. CVEs werden in der Cybersicherheit breit genutzt, um bekannte Sicherheitsprobleme in Software zu dokumentieren. Obwohl die Beschreibungen vor allem technischer Natur sind, werden sie von ganz unterschiedlichen Gruppen interpretiert – von IT-Fachleuten bis hin zu Entscheidungsträgern, die sie zur Risikobewertung heranziehen.

Die Forschenden führten eine umfassende sprachliche Analyse von über 165.000 CVE-Beschreibungen durch, um herauszufinden, wie sich der Sprachgebrauch über die Zeit verändert hat und ob er implizite Wertungen enthält. Dabei identifizierten sie mehrere wiederkehrende Muster. So gibt es etwa Begriffe, die eine Art Schuldzuweisung implizieren – etwa indem ein Versäumnis auf Seiten der Entwicklerinnen und Entwickler suggeriert wird – während andere Formulierungen die Schwachstelle oder das System neutraler beschreiben. Im Zeitverlauf lässt sich ein Trend zu sachlicherer, technischer Sprache erkennen, doch auch wertende oder emotional gefärbte Ausdrücke sind weiterhin verbreitet.

Die Studie macht deutlich, dass bereits kleine Unterschiede in der Wortwahl beeinflussen können, wie eine Sicherheitslücke wahrgenommen wird – etwa ob sie als Folge von Nachlässigkeit oder als strukturelles Problem verstanden wird. Diese Wahrnehmungen können wiederum beeinflussen, wie Organisationen mit der Lücke umgehen, etwa bei der Priorisierung von Maßnahmen oder der Zuweisung von Verantwortung.

Gesellschaftlich trägt die Forschung zu einem bewussteren und transparenteren Umgang mit Sicherheitsinformationen bei. Indem sie auf die Rolle der Sprache bei Sicherheitsentscheidungen hinweist, fördert sie eine klarere, gerechtere und objektivere Berichterstattung über Schwachstellen – ein wichtiger Schritt angesichts der zunehmenden Bedeutung von Cybersicherheit für öffentliche Infrastrukturen und das Vertrauen in digitale Systeme.

Browser-Erweiterungen erweitern die Funktionalität von Webbrowsern um zusätzliche Features, doch ihre stark privilegierte Stellung birgt auch Sicherheits- und Datenschutzrisiken. In unserer Forschung wollten wir verstehen, wie Entwicklerinnen und Entwickler von Erweiterungen diese Risiken wahrnehmen und während des Entwicklungsprozesses mit ihnen umgehen. Dazu führten wir Interviews mit 21 Entwicklerinnen und Entwicklern aus unterschiedlichen Hintergründen, um ihre Entwicklungspraxis zu verstehen. Zusätzlich beobachteten wir ihr Verhalten bei zwei Programmieraufgaben mit Fokus auf Sicherheit und Datenschutz und hielten ihre bisherigen Erfahrungen fest.

Unsere Ergebnisse zeigen, dass sich die meisten Entwicklerinnen und Entwickler zwar der allgemeinen Risiken wie Datendiebstahl oder dem Missbrauch von Browser-Berechtigungen bewusst sind, jedoch häufig über kein konkretes Wissen verfügen, wie diese Risiken vermieden werden können. So entschieden sich viele zwar für sichere APIs zur Speicherung von Nutzerdaten, taten dies jedoch oft aus Gründen der Bequemlichkeit statt auf Basis eines klaren Verständnisses der datenschutzrechtlichen Vorteile. Ebenso zögerten einige Teilnehmende bei Aufgaben, die sicherheitsrelevante Modifikationen an Browser-Headern erforderten, oder griffen zu unsicheren bzw. veralteten Lösungen—was erneut die Kluft zwischen Absicht und Wissen verdeutlicht.

Auch externe Faktoren beeinflussen die Entwicklungspraxis. Viele Teilnehmende berichteten, dass Browser-Plattformen nur unzureichende Hilfestellung für sicheres Entwickeln bieten und der Prüfprozess zur Veröffentlichung von Erweiterungen intransparent und inkonsistent sei. Schwierigkeiten bei der Monetarisierung und plattformspezifische Einschränkungen erschweren die Situation zusätzlich und führen dazu, dass Sicherheit und Datenschutz zugunsten von Funktionalität oder geschäftlichen Anforderungen in den Hintergrund rücken.

Aus gesellschaftlicher Sicht verdeutlicht unsere Forschung den Spannungsbogen zwischen der Sicherheit der Nutzerinnen und Nutzer und den realen Bedingungen der Softwareentwicklung. Entwicklerinnen und Entwickler wollen oft das Richtige tun, haben jedoch nicht die nötigen Ressourcen, Anreize oder die passende Unterstützung. Diese Lücke zu schließen—etwa durch präzisere Dokumentation, bessere Entwicklerwerkzeuge und eine gerechtere Plattform-Governance—könnte zu sichereren Browser-Erweiterungen und einer insgesamt sichereren Web-Erfahrung für alle führen.

Diese Forschung widmet sich einer wachsenden Bedrohung im Bereich des maschinellen Lernens: Datenrekonstruktionsangriffen. Solche Angriffe zielen darauf ab, die ursprünglichen Trainingsdaten eines Modells zu rekonstruieren – selbst dann, wenn der Angreifer nur begrenzten Zugriff auf das Modell hat. Dies wirft ernsthafte Datenschutzfragen auf, insbesondere wenn die Modelle mit sensiblen Informationen wie persönlichen Bildern oder medizinischen Daten trainiert wurden.

Obwohl viele Studien sich bereits mit Datenrekonstruktion beschäftigen, herrschen bislang uneinheitliche Definitionen, Annahmen und Bewertungsmethoden. Diese Inkonsistenz erschwert es, Ergebnisse zu vergleichen oder das tatsächliche Risiko solcher Angriffe realistisch einzuschätzen. Um dem entgegenzuwirken, stellt diese Arbeit ein umfassendes Rahmenwerk zur Definition und Bewertung von Datenrekonstruktionsangriffen vor – mit einem besonderen Fokus auf bildbasierte Modelle.

Die Beiträge der Studie lassen sich in drei zentrale Punkte gliedern: Erstens wird eine klare Definition und Taxonomie vorgeschlagen, die Angriffe danach kategorisiert, welchen Zugriff ein Angreifer auf Modell-Ausgaben und interne Informationen hat. Zweitens werden neue Bewertungsmetriken eingeführt, um sowohl die Genauigkeit als auch die Vielfalt der rekonstruierten Daten zu messen – basierend auf technischen Ähnlichkeitsmaßen sowie Bewertungen durch große Sprachmodelle, die menschliches Urteil approximieren. Drittens wird das Rahmenwerk auf zehn prominente Angriffsmethoden in unterschiedlichen Szenarien angewendet, um herauszufinden, welche Techniken unter welchen Bedingungen besonders effektiv sind.

Die Ergebnisse zeigen: Die Qualität der rekonstruierten Daten hängt stark davon ab, wie sehr ein Modell seine Trainingsdaten „memoriert“ und wie viel Zugriff der Angreifer auf das Modell hat. Außerdem weichen herkömmliche Bewertungsmetriken oft deutlich vom menschlichen Urteil ab – was den Bedarf an besseren Benchmarks unterstreicht.

Diese Arbeit legt das Fundament für konsistentere und aussagekräftigere Vergleiche zukünftiger Forschung zu Datenrekonstruktion. Aus gesellschaftlicher Sicht trägt sie dazu bei, Datenschutzrisiken im maschinellen Lernen besser zu verstehen – und liefert Werkzeuge, mit denen sich solche Bedrohungen systematischer und transparenter bewerten und mindern lassen.

Die Forschenden widmen sich einem langjährigen Problem in der Cybersicherheit: der Frage, wie sich Geheimnisse – etwa kryptografische Schlüssel – aus Softwaresystemen allein anhand indirekter Hinweise rekonstruieren lassen, insbesondere durch Speicherzugriffsmuster, die über sogenannte Side-Channel-Angriffe (Seitenkanalangriffe) sichtbar werden. Solche Angriffe erforderten bislang meist aufwändige manuelle Analysen und tiefes Expertenwissen über den Aufbau eines Programms. Ziel dieser Forschung war es, Machbarkeitsnachweise solcher Angriffe praktikabler und zugänglicher zu machen, indem der Prozess der Geheimnisgewinnung aus Binärprogrammen automatisiert wird.

Hierzu entwickelte das Team SCASE, ein Verfahren, das symbolische Ausführung – eine Technik zur automatisierten Analyse des Programmverhaltens – mit Speicherzugriffs-Spuren aus Side-Channel-Lecks kombiniert. Diese Spuren zeigen, welche Speicherbereiche während der Programmausführung verwendet wurden, ohne dass der Quellcode bekannt sein muss. Durch die gezielte Steuerung der symbolischen Analyse mit diesen Leckinformationen reduziert SCASE die Komplexität der Suche erheblich und ermöglicht die automatische Rekonstruktion geheimer Daten.

Zur Demonstration entwickelten die Forschenden das Prototyp-Tool Athena, das SCASE einsetzt, um Geheimnisse aus geschützten Umgebungen wie Intel-SGX-Enklaven zu extrahieren. Athena konnte erfolgreich kryptografische Schlüssel wie RSA, AES und RC4 rekonstruieren, aber auch nicht-kryptografische Daten wie Eingaben für Poker-Hand-Bewertungsprogramme – und das alles ohne manuelles Reverse Engineering. Die Methode funktionierte zuverlässig über unterschiedliche Anwendungsarten und Leckmuster hinweg.

Aus gesellschaftlicher Sicht zeigt diese Arbeit sowohl ein Risiko als auch eine Chance auf: Einerseits wird deutlich, dass sich Geheimnisse in vermeintlich sicheren Softwareumgebungen leichter extrahieren lassen als bislang angenommen – ein klarer Aufruf zu stärkeren Schutzmaßnahmen. Andererseits bietet der Ansatz neue Möglichkeiten für Sicherheitsforschung und Entwicklung, um Schwachstellen in komplexen Systemen systematisch zu erkennen und zu beheben – ein wichtiger Schritt hin zu sichereren digitalen Infrastrukturen.

Diese Studie untersucht, wie transparent Forschung im Bereich Usable Privacy and Security (UPS) berichtet wird – einem interdisziplinären Feld, das technische Cybersicherheit mit Studien unter Beteiligung von Menschen verbindet. Transparenz ist ein zentraler Bestandteil wissenschaftlicher Integrität: Sie ermöglicht es, Ergebnisse nachzuvollziehen, Studien zu replizieren und die Entstehung wissenschaftlicher Erkenntnisse kritisch zu prüfen. Trotz dieser Bedeutung fehlte bislang eine systematische Analyse der Transparenzpraxis in diesem Bereich.

Um diese Lücke zu schließen, analysierten die Forschenden 200 peer-reviewte UPS-Publikationen, die zwischen 2018 und 2023 auf zwölf renommierten Konferenzen erschienen sind. Jede Arbeit wurde anhand von 52 Transparenzkriterien bewertet – darunter die Formulierung der Forschungsfrage, die Nachvollziehbarkeit der Methodik, die Verfügbarkeit von Studienmaterialien sowie der Zugang zu ergänzenden Artefakten wie Code oder Datensätzen.

Die Auswertung zeigt: Im Durchschnitt erfüllten die Arbeiten etwa zwei Drittel der jeweils zutreffenden Transparenzkriterien. Zwar wurden Forschungsziele und grundlegende Vorgehensweisen meist klar benannt, doch fehlten häufig zentrale Materialien wie Fragebögen oder Interviewleitfäden. Zudem traten Inkonsistenzen auf – etwa wenn bestimmte methodische Details ausführlich beschrieben, andere jedoch weggelassen wurden. Auch externe Online-Ressourcen waren nicht immer zuverlässig: Ein signifikanter Anteil der angegebenen Links führte ins Leere oder zu unvollständigen Inhalten.

Einfluss auf die Transparenz hatten unter anderem die Länge der Arbeiten und die methodische Komplexität: Längere Publikationen waren im Schnitt transparenter, während Studien mit mehreren Methoden häufig unter dem verfügbaren Platz litten. Überraschenderweise korrelierte das Vorhandensein eines sogenannten *Artifact Evaluation Badge* nicht eindeutig mit einer höheren Transparenz.

Diese Arbeit liefert einen strukturierten Überblick über die aktuelle Berichtspraxis in der UPS-Forschung und zeigt konkrete Verbesserungsmöglichkeiten auf. Aus gesellschaftlicher Sicht stärkt sie das Anliegen, menschzentrierte Cybersicherheitsforschung offener, replizierbarer und vertrauenswürdiger zu gestalten. Die Ergebnisse sprechen dafür, gezielt in bessere Community-Richtlinien und verlässliche Infrastrukturen für das Teilen von Studienmaterialien zu investieren – um so die wissenschaftliche Aussagekraft und soziale Rechenschaftsfähigkeit der UPS-Forschung nachhaltig zu verbessern.

Messstudien im Web spielen eine zentrale Rolle, um Datenschutz- und Sicherheitsaspekte im Internet besser zu verstehen. Allerdings stoßen sie häufig auf erhebliche praktische Hürden: Viele der verwendeten Tools sind speziell entwickelte Einzelanfertigungen, schwer wiederverwendbar und erzeugen Ergebnisse, die sich nur schwer reproduzieren oder vergleichen lassen. Diese Forschung stellt mit WebREC ein neues Messwerkzeug sowie das zugehörige .web-Archivformat vor – beides entwickelt, um genau diese Herausforderungen zu adressieren und eine verlässlichere, standardisierte Grundlage für die Analyse von Webseitenverhalten zu schaffen.

WebREC basiert auf einer modifizierten Version des Chromium-Browsers, die systematisch aufzeichnet, wie Webseiten geladen und ausgeführt werden – inklusive der Interaktionen zwischen Webseitenelementen und JavaScript-Code. Dabei erfasst das Tool nicht nur, welche Ressourcen geladen werden, sondern auch, **wie** sie verwendet werden: Welche Skripte ausgeführt werden, welche Aktionen sie auslösen und wie sich Seiten beim Laden verhalten. Das `.web`-Format speichert all diese Informationen strukturiert, sodass spätere Analysen möglich sind, ohne dass man eine Seite erneut aufrufen oder deren Antworten erneut abspielen muss.

Die Studie zeigt, dass WebREC präzisere und reproduzierbarere Daten liefert als bestehende Werkzeuge. So erkennt es alle JavaScript-Aufrufe eines verifizierten Referenzsatzes – im Gegensatz zu herkömmlichen Webarchiv-Formaten, die im Schnitt nur etwa 60 % erfassen. Auch bei dynamischen Inhalten und der genauen Zuordnung von Netzwerkzugriffen – etwa zur Analyse von Drittanbieter-Diensten – liefert WebREC verlässlichere Informationen.

Besonders bemerkenswert: Die Forschenden stellten fest, dass 70 % der jüngeren Studien in diesem Bereich WebREC direkt hätten nutzen können, ohne eigene Crawler zu entwickeln. Nahezu 50 % der Studien wären sogar allein auf Basis von .web-Archiven möglich gewesen, ganz ohne erneute Messungen.

Insgesamt zeigt diese Arbeit, wie ein standardisiertes und transparentes Vorgehen die Qualität und Vergleichbarkeit von Webmessungen verbessern kann – ein bedeutender Schritt hin zu robusterer, nachvollziehbarer Forschung im Bereich Online-Datenschutz und -Sicherheit.

Diese Forschung untersucht, wie wirksam die Anti-Stalking-Funktionen von Apple AirTags Menschen vor unerwünschter Ortung schützen. AirTags sind kleine, kostengünstige Tracker, die ursprünglich dazu gedacht waren, verlorene Gegenstände wiederzufinden – sie werden jedoch auch zum Stalking missbraucht. Um solchen Missbrauch zu erschweren, hat Apple Warnmeldungen und Hilfsfunktionen eingeführt, mit denen Nutzer\*innen unbekannte AirTags in ihrer Nähe erkennen und lokalisieren können. Wie gut diese Schutzmechanismen unter realistischen Bedingungen funktionieren, war bislang kaum erforscht.

Die Forschenden führten zwei Studien durch. In der ersten wurde gemessen, wie zuverlässig und schnell Warnungen auf iOS- und Android-Geräten ausgelöst werden. Das Ergebnis: iOS war deutlich effektiver. Alle iOS-Nutzer*innen erhielten innerhalb eines Tages eine Warnung, während nur etwas mehr als die Hälfte der Android-Nutzer*innen benachrichtigt wurde – teils mit großer Verzögerung.

In der zweiten Studie trugen Teilnehmende unwissentlich einen AirTag bei sich und erhielten später eine Tracking-Warnung. Ihre Reaktionen fielen sehr unterschiedlich aus: Einige gingen der Warnung aktiv nach, andere baten Freund\*innen oder Familie um Hilfe, wieder andere ignorierten sie vollständig. Häufig zeigte sich, dass die Warnhinweise nicht verstanden oder als irrelevant empfunden wurden. Gründe dafür waren etwa unklare Formulierungen, fehlende Bedrohungseinordnung und eine generelle Unkenntnis über AirTags. Auch beim Versuch, einen versteckten AirTag zu orten, taten sich viele schwer – die Benutzeroberfläche war verwirrend, das Ortungssignal zu leise, und Funktionen wie „In der Nähe suchen“ wurden wegen unklarer Bezeichnungen kaum genutzt.

Diese Studie deckt zentrale Schwächen in den aktuellen Schutzmechanismen gegen Tech-basiertes Stalking auf. Für die Gesellschaft liefert sie wichtige, empirisch fundierte Empfehlungen zur Verbesserung von Benutzerführung und Warnsystemen. Bessere Hinweise, verständlichere Interfaces und mehr Rücksicht auf unterschiedliche Nutzergruppen könnten wesentlich dazu beitragen, Menschen besser vor heimlicher Verfolgung zu schützen. Derzeit sind die bestehenden Maßnahmen jedoch unzureichend – insbesondere für Personen ohne moderne Smartphones oder mit begrenzter technischer Erfahrung.

Die Forschenden haben eine neue Methode untersucht, mit der Angreifer eine weit verbreitete Sicherheitsmaßnahme in moderner Software umgehen können: Control-Flow Integrity (CFI). CFI soll verhindern, dass Hacker den Ablauf eines Programms manipulieren, indem es nur vorab definierte und sichere Ausführungspfade zulässt – vergleichbar mit einem Sicherheitsgeländer für den Programmfluss. Doch Programmiersprachen entwickeln sich weiter, und mit C++20 wurde ein neues Feature eingeführt: Coroutines, die asynchrone Programmierung einfacher und effizienter machen sollen.

Coroutines erlauben es Funktionen, ihre Ausführung zu pausieren und später fortzusetzen. Dafür speichern sie wichtige Zustandsinformationen – etwa, wo die Ausführung wieder aufgenommen werden soll und welche Daten dabei benötigt werden – im Heap-Speicher des Computers. Die Forschenden fanden heraus, dass genau dieser Speicherbereich nicht durch bestehende CFI-Methoden geschützt ist. Das bedeutet: Angreifer, die durch klassische Schwachstellen wie Pufferüberläufe Zugriff auf den Speicher erlangen, können die Coroutine-Daten manipulieren und so die Kontrolle über den Programmablauf übernehmen.

Dazu stellten sie eine neue Angriffstechnik vor: Coroutine Frame-Oriented Programming (CFOP). Diese nutzt gezielt die Speicherstrukturen von Coroutines, um Programme zu kompromittieren – selbst dann, wenn moderne CFI-Schutzmechanismen aktiv sind. Der Angriff wurde an realen Beispielen demonstriert, unter anderem in der populären Datenbanksoftware ScyllaDB und dem Open-Source-Betriebssystem SerenityOS, die beide Coroutines verwenden.

Um das Problem zu entschärfen, schlagen die Forschenden technische Maßnahmen vor, zum Beispiel die Verlagerung sicherheitskritischer Zeiger aus beschreibbarem Speicher in geschützte Bereiche.

Diese Arbeit deckt eine wichtige Schwachstelle in aktuellen Sicherheitskonzepten auf. Sie zeigt: Wenn Programmiersprachen neue Features einführen, müssen auch die Schutzmechanismen entsprechend weiterentwickelt werden. Durch die frühe Identifikation dieser Lücke liefert die Studie wertvolle Impulse für Entwicklerinnen und Entwickler, Compiler-Hersteller und Sicherheitsverantwortliche, um Software besser gegen solche hochentwickelten Angriffe abzusichern.

Viele Menschen nutzen Werbeblocker, um ihre Privatsphäre zu schützen und ihre Online-Erfahrung zu verbessern. Diese Tools funktionieren, indem sie Werbung und Tracker mithilfe anpassbarer Filterlisten blockieren. Einige Nutzerinnen und Nutzer gehen noch einen Schritt weiter und personalisieren diese Einstellungen, um noch mehr unerwünschte Inhalte auszublenden. In dieser Studie wurde untersucht, ob solche Personalisierungen unbeabsichtigt die Privatsphäre gefährden können.

Die Forschenden fanden heraus, dass individuell angepasste Werbeblocker-Nutzungen Nutzerinnen und Nutzer im Web identifizierbarer machen können. Durch die Analyse aktiver Filterlisten können Websites ein einzigartiges „Fingerabdruck“-Profil der jeweiligen Werbeblocker-Konfiguration erstellen. Dies funktioniert sogar ohne den Einsatz von JavaScript – einer gängigen Abwehrmaßnahme zum Schutz der Privatsphäre – und nutzt stattdessen subtile Webtechniken wie CSS. Die Forschenden entwickelten neue Methoden, mit denen sich diese Konfigurationen leise und effizient erkennen lassen. In ihren Experimenten konnten sie viele Nutzerinnen und Nutzer mit sorgfältig angepassten Werbeblockern eindeutig identifizieren – teilweise bis auf eine Gruppe von nur 48 Personen unter zehntausenden.

Die Studie zeigte zudem, dass diese Erkennungsmerkmale über längere Zeit stabil bleiben, was sie für das langfristige Tracking besonders geeignet macht. Bereits existierende Tools, die eigentlich Tracking erkennen oder blockieren sollen, sind nicht in der Lage, diese neuen „scriptlosen“ Angriffe zu identifizieren. Die Forschenden analysierten mögliche Gegenmaßnahmen und kamen zu dem Schluss, dass eine vollständige Vereinheitlichung der Filterlisten oder das Abschalten von Personalisierungen das Risiko deutlich senken würde – allerdings auf Kosten von Nutzerautonomie, Leistung und Bedienkomfort.

Diese Arbeit beleuchtet einen wichtigen Zielkonflikt: Maßnahmen zur Verbesserung der Privatsphäre durch individuelle Anpassungen können unbeabsichtigt die Anonymität verringern. Durch eine gründliche Analyse dieses Risikos liefert die Studie wertvolle Hinweise für Entwickler, Browser-Hersteller und Nutzerinnen und Nutzer. Die Ergebnisse unterstreichen den Bedarf an differenzierten Datenschutzwerkzeugen, die Sicherheit und Nutzbarkeit gleichermaßen berücksichtigen – und tragen zu einer fundierteren Diskussion über effektiven Privatsphärenschutz im Web bei.

Große Sprachmodelle (LLMs) sind zunehmend in der Lage, Texte zu erzeugen, die menschlicher Sprache sehr ähnlich sind. Das bringt viele Vorteile mit sich – birgt aber auch neue Risiken, insbesondere in Form von Hassrede. In dieser Studie untersuchten die Forschenden, wie gut bestehende Erkennungssysteme für Hassrede mit von LLMs erzeugten Inhalten umgehen können – und ob sie gegen gezielte Umgehungsversuche resistent sind.

Zu diesem Zweck entwickelte das Team den Benchmark **HATEBENCH**, der über 7.800 Textbeispiele enthält, die von LLMs generiert wurden und sich gegen 34 verschiedene Identitätsgruppen richten. Alle Beispiele wurden von menschlichen Expert\*innen sorgfältig annotiert. Anschließend testeten die Forschenden acht gängige Hassrede-Detektoren mit diesem Datensatz. Das Ergebnis: Während einige Systeme bei früheren Modellen wie GPT-3.5 noch zuverlässig funktionierten, nahm ihre Erkennungsleistung bei neueren Modellen wie GPT-4 deutlich ab – vermutlich, weil diese subtilere und sprachlich raffiniertere Formen von Hass verwenden.

Zudem zeigte die Studie, dass Angreifer LLM-generierte Hassrede gezielt so manipulieren können, dass sie von den Erkennungssystemen nicht mehr erkannt wird. Solche „adversarial attacks“ bestehen meist aus minimalen Veränderungen der Formulierung, ohne dass sich die Bedeutung wesentlich ändert. In manchen Fällen blieb so verpackte Hassrede in über 96 % der Fälle unentdeckt. Besonders effektiv wurden diese Angriffe, wenn die Angreifenden lokale Kopien der Erkennungssysteme nutzten, um ihre Texte automatisiert und gezielt anzupassen – ein Vorgehen, das gezielte Hasskampagnen im Netz schneller und schwerer nachvollziehbar macht.

Diese Forschung macht eine wachsende Herausforderung für die Online-Sicherheit deutlich: Systeme zur Erkennung von Hassrede müssen ständig weiterentwickelt werden, um mit den Fähigkeiten moderner Sprachmodelle Schritt zu halten. Trotz der beunruhigenden Ergebnisse liefern der vorgestellte Benchmark und die Methoden dieser Arbeit eine wichtige Grundlage, um künftige Moderationstechnologien robuster und verlässlicher zu gestalten.

Viele Studien im Bereich der Computersicherheit nutzen Stack Overflow, um Programmierpraktiken zu analysieren. Bisher basieren solche Arbeiten jedoch meist auf Querschnittsanalysen – also dem aktuellen Zustand der Plattform zum Zeitpunkt der Datenerhebung. In dieser Studie untersuchten die Forschenden, wie sich die fortlaufende Entwicklung von Inhalten auf Stack Overflow – etwa Code-Snippets und Kommentare – auf die Verlässlichkeit früherer Forschungsergebnisse auswirkt, die auf diesen Inhalten beruhen.

Zunächst sichtete das Team 42 frühere Studien, die Stack Overflow zur Analyse von Code-Sicherheit herangezogen hatten, und prüfte, auf welche Aspekte der Plattform sich diese Arbeiten stützten – beispielsweise verwendete Programmiersprachen oder die Rolle von Kommentaren bei der Kontextualisierung von Code. Dabei zeigte sich, dass viele dieser Studien nicht berücksichtigten, dass sich Inhalte im Laufe der Zeit verändern. Um die Auswirkungen dieser inhaltlichen Dynamik zu messen, replizierten die Forschenden sechs dieser Studien mithilfe aktuellerer Versionen des Stack-Overflow-Datensatzes.

Die Replikationsversuche ergaben, dass sich in vier der sechs Fälle die Ergebnisse bei Verwendung der neueren Daten deutlich unterschieden. So enthielten neuere Beiträge mehr Codebeispiele mit Sicherheitsproblemen, und auch die Art der häufigsten Schwachstellen hatte sich gewandelt. In einigen Fällen funktionierten Werkzeuge zur Erkennung unsicheren Codes nicht mehr so zuverlässig wie ursprünglich. Das bedeutet: Erkenntnisse, die auf einer bestimmten Version der Stack-Overflow-Daten beruhen, können schon wenige Jahre später nicht mehr gültig sein.

Die Forschenden plädieren deshalb dafür, Stack-Overflow-Daten als **Zeitreihe** zu betrachten – nicht als statischen Schnappschuss. Um zukünftige Studien verlässlich und aussagekräftig zu gestalten, empfehlen sie, Entwicklungen über die Zeit hinweg zu analysieren und die Ergebnisse immer in den zeitlichen Kontext der Datenerhebung einzuordnen.

Diese Arbeit leistet einen wichtigen Beitrag zur Verbesserung wissenschaftlicher Standards in der Cybersicherheitsforschung. Sie stärkt das Bewusstsein für zeitabhängige Veränderungen in populären Datenquellen und unterstützt damit die Entwicklung von Werkzeugen und Erkenntnissen, die auch langfristig Bestand haben – selbst wenn sich Plattformen wie Stack Overflow weiterentwickeln.

 

Smartphone-Diebstahl ist ein weit verbreitetes Problem – dennoch ist wenig darüber bekannt, wie Menschen sich darauf vorbereiten, ihn erleben und darauf reagieren. Um diese Lücke zu schließen, führten die Forschenden ausführliche Interviews mit 20 Personen, denen kürzlich das Smartphone gestohlen wurde. Die Fälle reichten von Taschendiebstahl bis hin zu bewaffnetem Raubüberfall und ereigneten sich in unterschiedlichen Kontexten und Ländern.

Die Studie zeigt: Die meisten Menschen sind schlecht auf einen Handy-Diebstahl vorbereitet. Sie verlassen sich oft auf grundlegende Schutzmaßnahmen wie Bildschirmsperren und wiegen sich in trügerischer Sicherheit. Kommt es zum Diebstahl, erleben viele Schock, Hilflosigkeit und Angst – insbesondere wegen des Verlusts persönlicher Fotos oder sensibler Informationen wie Bankdaten. Viele Betroffene haben Schwierigkeiten, wieder Kontrolle über ihre Konten zu erlangen – vor allem dann, wenn die Zwei-Faktor-Authentifizierung über das gestohlene Gerät lief.

Zu den ersten Reaktionen der Betroffenen zählen typischerweise der Versuch, das Smartphone zu orten, das Aktivieren des „Verloren“-Modus sowie die Kontaktaufnahme mit Bank und Mobilfunkanbieter. Die bestehenden Wiederherstellungsprozesse sind jedoch oft unübersichtlich, lückenhaft und schlecht koordiniert. Emotionale Unterstützung kommt meist von Familie oder Freunden; Hilfe von Behörden oder Anbietern wird als begrenzt wahrgenommen. Nach dem Vorfall wechseln viele von technischen Schutzmaßnahmen zu Verhaltensstrategien – etwa, indem sie riskante Situationen meiden oder im öffentlichen Raum ein günstiges Zweithandy nutzen.

Die Studie macht große Lücken in der Nutzeraufklärung, im Gerätdesign und in der Wiederherstellung von Kontrolle deutlich. Sie legt nahe, dass Smartphone-Hersteller, App-Entwickler, Mobilfunkanbieter und politische Entscheidungsträger mehr tun könnten, um Betroffene zu unterstützen – etwa durch verständlichere Sicherheitshinweise, vereinfachte Kontowiederherstellung und besser koordinierte Notfallmaßnahmen.

Indem sie reale Erfahrungen statt hypothetischer Szenarien untersucht, trägt diese Forschung dazu bei, die Risiken von Smartphone-Diebstahl sichtbarer zu machen. Sie liefert konkrete Einsichten, um sowohl die persönliche Vorbereitung als auch die systemische Unterstützung zu verbessern – ein wichtiger Beitrag zum Schutz von Nutzer\*innen in einer zunehmend mobilen und vernetzten Welt.

Moderne eingebettete Systeme wie medizinische Geräte, Industrieroboter oder Smart-Home-Anwendungen basieren auf Firmware, um korrekt zu funktionieren. Die Sicherheit dieser Firmware ist entscheidend – doch das Testen gestaltet sich schwierig, insbesondere wenn die Firmware auf sogenannte Interrupts, also hardwareseitige Ereignisse, angewiesen ist. Werden diese Interrupts während des Tests nicht korrekt ausgelöst, kann die Firmware abstürzen oder sich fehlerhaft verhalten – was wiederum dazu führt, dass Sicherheitslücken unentdeckt bleiben.

In dieser Studie entwickelten die Forschenden ein neues Testwerkzeug namens AidFuzzer, das die Firmware-Analyse verbessert, indem es gezielt auf den Umgang mit Interrupts fokussiert. Frühere Werkzeuge lösten Interrupts in festen Zeitabständen oder auf Basis von Fuzzing-Daten aus – ohne dabei den internen Zustand der Firmware zu berücksichtigen. Dies führte häufig zu Fehlverhalten oder übersehenen Schwachstellen. AidFuzzer hingegen beobachtet, wie die Firmware ausgeführt wird, und löst nur dann spezifische Interrupts aus, wenn sie tatsächlich benötigt werden. Dabei erkennt das Tool, ob die Firmware aktiv verarbeitet oder auf Eingaben wartet, und verfolgt, welche Interrupts sinnvoll zur Fortsetzung des Programms beitragen können.

Die Forschenden testeten AidFuzzer an zehn realen Firmware-Programmen und verglichen es mit bestehenden Werkzeugen. Das Ergebnis: AidFuzzer entdeckte mehr Schwachstellen und drang tiefer in den Code ein. Insgesamt wurden acht bislang unbekannte Sicherheitslücken identifiziert, von denen einige bereits bestätigt und gemeldet wurden. Gleichzeitig produzierte AidFuzzer weniger Fehlalarme, was die Analyse effizienter machte.

Indem dieses Verfahren den Umgang mit Interrupts beim Firmware-Testing verbessert, leistet die Forschung einen Beitrag zur Sicherheit eingebetteter Systeme. Sie bietet eine praxisnahe Methode, um schwerwiegende Schwachstellen in Geräten aufzudecken, die zunehmend Teil unseres Alltags sind – und das ohne Zugriff auf Quellcode oder physische Hardware. Damit unterstützt die Arbeit das übergeordnete Ziel, digitale Systeme sicherer und verlässlicher zu machen.

Open-Source-Software (OSS) ist ein Grundpfeiler der digitalen Infrastruktur, die wir täglich nutzen. Trotz ihrer zentralen Bedeutung sind die Sicherheitspraktiken im OSS-Bereich – insbesondere in der Entwurfsphase – bislang wenig erforscht. In dieser Studie befragten Forschende 25 OSS-Entwicklerinnen und -Entwickler, um zu verstehen, wie sie Sicherheitsrisiken erkennen und abmildern – mit besonderem Fokus auf die Frage, ob dabei formale Methoden wie das sogenannte „Threat Modeling“ zum Einsatz kommen.

Threat Modeling ist ein strukturierter Prozess, der Entwicklerinnen und Entwicklern helfen soll, potenzielle Sicherheitsprobleme frühzeitig zu erkennen und zu verhindern. Obwohl diese Methode vielfach empfohlen wird, gilt sie als zu aufwendig oder kompliziert – besonders in der freiwilligen, oft nebenberuflich organisierten OSS-Community. Die Interviews zeigten, dass nahezu alle Befragten informelle, flexible Ansätze bevorzugen. Statt strukturierter Verfahren folgen sie meist einem „Ad-hoc“-Vorgehen, das auf Erfahrung basiert: Typische Bedrohungen werden gedanklich durchgespielt, ohne feste Prozesse oder standardisierte Dokumentation.

Für diese Präferenz gab es mehrere Gründe: OSS-Entwickelnde arbeiten häufig in ihrer Freizeit und vermeiden daher Prozesse, die zusätzlichen Aufwand oder kontinuierliche Pflege von Dokumentation erfordern. Viele Projekte sind klein, dezentral organisiert und verfügen nicht über spezifische Sicherheitskompetenz, was formale Methoden unrealistisch erscheinen lässt. Dennoch denken die Beteiligten durchaus über Sicherheitsaspekte nach – etwa durch die Anwendung bewährter Prinzipien für sicheres Design oder den Austausch über potenzielle Schwachstellen in Online-Tools wie Issue-Trackern.

Einige wenige Befragte nutzen strukturierte Methoden – etwa STRIDE oder Angriffsbäume – doch das blieb die Ausnahme. Manche passten diese Methoden an ihre Bedürfnisse an, verzichteten auf vollständige Dokumentation oder verwendeten vereinfachte Checklisten, die von Sicherheitsteams bereitgestellt wurden.

Diese Forschung zeigt, warum formales Threat Modeling in der OSS-Praxis selten ist, und gibt Hinweise darauf, wie solche Verfahren nutzerfreundlicher und ressourcenschonender gestaltet werden könnten. Gesellschaftlich unterstreichen die Ergebnisse die Notwendigkeit, OSS-Projekte besser abzusichern – insbesondere jene, die kritische Systeme stützen – und freiwillige Entwicklerinnen und Entwickler durch zugängliche Werkzeuge für sicheres Design gezielter zu unterstützen.

Forschende haben untersucht, warum es schwierig, aber entscheidend ist, Sicherheitstools in Software zu aktualisieren. So wie man alte Türschlösser ersetzt, müssen auch digitale „Schlösser“ – also kryptografische Verfahren – regelmäßig erneuert werden, um Programme vor Angreifern zu schützen. Solche Updates umfassen verschiedene Maßnahmen: etwa das Ersetzen veralteter Sicherheitsverfahren durch stärkere (z. B. von SHA-1 zu SHA-512), den Einsatz längerer digitaler Schlüssel (von 2048 auf 4096 Bit), die Modernisierung der Kommunikationsprotokolle zwischen Geräten (z. B. von TLS 1.2 auf 1.3) oder die Vorbereitung auf extrem leistungsfähige Computer der Zukunft, die heutige Verschlüsselung knacken könnten (Post-Quantum-Kryptografie).

Trotz der Dringlichkeit verwenden viele Programme weiterhin veraltete und angreifbare Sicherheitsmechanismen – eine Tatsache, die sowohl durch frühere Studien als auch durch aktuelle Sicherheitsvorfälle bestätigt wird. Um die Gründe dafür besser zu verstehen, interviewte das Forschungsteam 21 erfahrene Softwareentwickler\*innen zu ihren praktischen Erfahrungen. Dabei zeigte sich: Sicherheitsupdates werden zwar aus unterschiedlichen Gründen angestoßen (nicht nur wegen direkter Bedrohungen), doch fast alle empfinden den Prozess als komplex, zeitaufwendig und frustrierend. Häufig fehlen klare Anleitungen oder nachvollziehbare Schritte. Hindernisse wie mangelndes Fachwissen, veraltete Systeme, die Upgrades blockieren, oder unklare Dokumentationen machen die Umsetzung schwierig.

Viele der Befragten äußerten den Wunsch nach besser zugänglichen, verständlichen Ressourcen – ohne Fachjargon – und direkter Unterstützung durch Sicherheitsexpert*innen. Auf Grundlage dieser Erkenntnisse formuliert die Studie konkrete Empfehlungen für Entwickler*innen, Universitäten, Standardisierungsgremien und Organisationen, die vor der Umstellung auf Post-Quantum-Sicherheit stehen. Ziel ist es, sicherheitsrelevante Updates für alle Beteiligten einfacher, verständlicher und wirkungsvoller zu gestalten.

Diese Studie untersucht, wie Text-zu-Bild-Modelle – etwa Stable Diffusion – gezielt manipuliert werden können, um trotz harmloser Eingaben gefährliche Inhalte zu erzeugen, insbesondere hasserfüllte Memes. Während frühere Arbeiten gezeigt haben, dass problematische Inhalte durch provokante oder unangemessene Prompts entstehen können, konzentriert sich dieses Forschungsvorhaben auf eine subtilere Bedrohung: die gezielte Vergiftung des Modells bereits während des Trainings, um schädliches Verhalten fest in ihm zu verankern.

Zu Beginn demonstrieren die Forschenden, dass sogenannte „Poisoning Attacks“ – also Manipulationen, bei denen nur ein kleiner Teil der Trainingsdaten verändert wird – dazu führen können, dass ein Modell zuverlässig gefährliche Inhalte auf scheinbar harmlose Prompts wie „Foto einer Katze“ hin erzeugt. Allerdings zeigen sich dabei oft unerwünschte Nebenwirkungen: Auch andere, thematisch nicht verwandte Eingaben können plötzlich problematische Ausgaben hervorrufen, was die Angriffe leichter erkennbar macht. Der Grund liegt in der semantischen Nähe von Prompts – sind zwei Eingaben konzeptuell ähnlich, kann die Manipulation auf beide wirken.

Um dieses Problem zu lösen, schlägt das Forschungsteam eine Methode für „stealthy poisoning“ vor – also eine besonders unauffällige Form des Datenvergiftens. Neben böswilligen Trainingsbeispielen werden dabei auch gezielt „sanitizing samples“ eingebracht, um die Ausbreitung der Manipulation auf nicht-zielgerichtete Prompts zu begrenzen. Zudem identifizieren die Forschenden sogenannte „Shortcut Prompts“ – Eingaben, die der gewünschten, schädlichen Ausgabe besonders nahekommen und so effektivere Angriffe mit weniger manipulierten Daten ermöglichen.

Die Studie zeigt nicht nur die Machbarkeit solcher Attacken anhand verschiedener Modelle und Inhalte, sondern diskutiert auch Gegenmaßnahmen. Dazu zählen nachgelagerte Sicherheitsprüfungen der generierten Bilder, sorgfältigere Überprüfung und Freigabe von Modellen sowie das gezielte Nachtrainieren mit sauberen Daten.

Gesellschaftlich beleuchtet die Forschung eine bislang wenig beachtete Schwachstelle: Nutzerinnen und Nutzer könnten ungewollt beleidigende oder gefährliche Inhalte mit öffentlich zugänglichen KI-Tools erzeugen. Indem das Risiko offengelegt und konkrete Gegenstrategien vorgestellt werden, trägt die Studie zur Entwicklung sicherer und vertrauenswürdiger KI-Systeme bei.

In dieser Studie widmen sich die Forschenden einer wachsenden Herausforderung in der Entwicklung und Anwendung Künstlicher Intelligenz: dem zunehmenden Einsatz synthetischer Daten, die von großen Sprachmodellen (Large Language Models, LLMs) erzeugt werden. Solche künstlich erzeugten Daten sollen unter anderem Kosten senken und Datenschutzrisiken verringern – etwa in sensiblen Bereichen wie Gesundheit, Recht oder Bildung. Gleichzeitig bergen sie jedoch Risiken: Sie können Verzerrungen (Bias), Fehler oder unbeabsichtigte Nebenwirkungen verursachen – besonders dann, wenn sie zur Schulung anderer KI-Systeme oder für visuelle Analysen verwendet werden.

Um Nutzerinnen, Nutzer und Regulierungsbehörden dabei zu unterstützen, nachzuvollziehen, ob ein Modell oder ein Ergebnis durch synthetische Daten beeinflusst wurde, führen die Forschenden das Konzept des „synthetic artifact auditing“ ein. Ziel ist es, herauszufinden, ob etwa ein Klassifikationsmodell, ein Textgenerator oder eine statistische Grafik mit von LLMs erzeugten Daten trainiert oder beeinflusst wurde – auch dann, wenn der ursprüngliche Trainingsdatensatz nicht verfügbar ist.

Für dieses Audit schlagen sie drei Methoden vor:

1. metrikbasiertes Auditing, das auf Leistungsunterschieden zwischen Modellen beruht, die mit echten bzw. synthetischen Daten trainiert wurden
2. tuning-basiertes Auditing, das intern auf feine Verhaltensmuster im Modell zugreift
3. klassifikationsbasiertes Auditing, das visuelle Ausgaben analysiert, um Rückschlüsse auf die Herkunft der Daten zu ziehen

Diese Methoden kommen ohne Einblick in proprietäre Trainingsdaten aus und sind sowohl bei begrenztem als auch bei vollem Zugriff auf das Modell einsetzbar.

Die Forschenden testeten ihr Audit-Framework an verschiedenen Aufgaben aus dem Bereich der natürlichen Sprachverarbeitung. Ihre Verfahren konnten mit hoher Genauigkeit unterscheiden, ob ein Modell oder ein Output auf echten oder synthetischen Trainingsdaten basiert – sowohl im Text- als auch im visuellen Bereich.

Gesellschaftlich liefert diese Arbeit ein konkretes Werkzeug zur Erhöhung von Transparenz und Rechenschaftspflicht in KI-Systemen. Angesichts der zunehmenden Verbreitung synthetischer Daten ermöglicht die Fähigkeit, deren Einsatz zu erkennen, eine fundiertere Aufsicht und unterstützt den verantwortungsvollen Umgang mit KI-Technologien.

In dieser Studie untersuchen die Forschenden, wie generative KI-Modelle – etwa Bild- und Textgeneratoren – missbraucht werden können, um gezielte Angriffe auf andere Machine-Learning-Systeme durchzuführen. Im Gegensatz zu herkömmlichen Angriffen, die oft Zugang zu echten Trainingsdaten oder den internen Strukturen des Zielmodells erfordern, kommt der hier vorgestellte Ansatz ohne beides aus. Die Forschenden zeigen, dass sich mit öffentlich verfügbaren generativen KI-Werkzeugen synthetische Daten erzeugen lassen, die realistisch genug sind, um erfolgreiche Angriffe selbst in sogenannten „Black-Box“-Szenarien zu ermöglichen – also dann, wenn nur die Ausgaben des Zielmodells bekannt sind.

Untersucht wurden drei Angriffsarten: Model Extraction, bei dem versucht wird, ein funktional ähnliches Abbild des Zielmodells zu rekonstruieren; Membership Inference, bei dem festgestellt werden soll, ob bestimmte Daten zum Training des Zielmodells verwendet wurden; und Model Inversion, bei dem Eingabedaten anhand der Modellantworten teilweise oder vollständig rekonstruiert werden sollen. Für alle drei Angriffsarten entwickelten die Forschenden mehrstufige Verfahren. Ausgangspunkt ist die Generierung synthetischer Daten mit einem generativen Modell. Anschließend werden diese Daten durch Verfahren wie Datenaugmentation und gezieltes Filtern so angepasst, dass sie das Verhalten des Zielmodells möglichst gut widerspiegeln. Mit diesen verfeinerten Daten wird der eigentliche Angriff simuliert.

In Experimenten mit Bild- und Textdaten zeigte sich, dass dieser datenfreie Ansatz in Black-Box-Umgebungen erstaunlich effektiv ist – oft annähernd so wirksam wie klassische Angriffe, die echten Trainingsdaten oder tiefere Systemkenntnis voraussetzen. Zudem wurde untersucht, wie sich Faktoren wie Datensatzgröße und -vielfalt auf die Angriffsleistung auswirken.

Aus gesellschaftlicher Sicht verdeutlicht die Studie ein neues Risiko: Generative KI senkt die Einstiegshürde für technisch anspruchsvolle Angriffe auf Machine-Learning-Systeme – selbst ohne Zugang zu sensiblen oder proprietären Daten. Das unterstreicht die Notwendigkeit robusterer Schutzmaßnahmen beim Design von KI-Systemen, insbesondere in sensiblen Bereichen, in denen Datenschutz und Vertrauen entscheidend sind.

In dieser Studie untersuchen die Forschenden, wie Datenverdopplung missbraucht werden kann, um die Wirksamkeit von „Machine Unlearning“ zu untergraben – einem Verfahren, bei dem KI-Systeme auf Anfrage bestimmte Daten „vergessen“ müssen, oft zur Einhaltung von Datenschutzgesetzen wie der DSGVO. Während frühere Arbeiten sich mit Methoden des Unlearning und deren Verifikation beschäftigt haben, wurde die Rolle von doppelten oder nahezu identischen Daten in diesem Kontext weitgehend übersehen.

Die Forschenden schlagen eine neuartige Angriffsform vor, bei der eine angreifende Partei Duplikate bestimmter Daten in den Trainingsdatensatz eines KI-Modells einschleust. Später fordert sie die Löschung genau dieser Einträge. Da dieselben Daten jedoch an anderer Stelle im Trainingsdatensatz weiterhin vorhanden sind, kann es passieren, dass das Modell sich weiterhin an die eigentlich zu vergessenen Informationen „erinnert“ – selbst nach erneutem Training. So entsteht der Anschein, das Unlearning sei erfolgreich gewesen, obwohl es in Wahrheit unvollständig ist. Dies lässt sich ausnutzen, um dem Betreiber des Modells fälschlicherweise vorzuwerfen, einer Löschanfrage nicht nachgekommen zu sein.

Um den Angriff schwerer erkennbar zu machen, entwickelte das Team zudem Techniken zur Erzeugung sogenannter „Near-Duplicates“ – also Daten, die inhaltlich dem Original ähneln, aber optisch oder formal so unterschiedlich erscheinen, dass sie gängige Erkennungsverfahren umgehen. Die Forschenden testeten diesen Ansatz in drei verschiedenen KI-Lernumgebungen: im klassischen maschinellen Lernen, im föderierten Lernen (mit mehreren dezentralen Teilnehmenden) sowie im Reinforcement Learning (etwa bei Spielagenten). In allen Szenarien zeigte sich, dass geschickt platzierte Duplikate die Wirksamkeit von Unlearning erheblich verringern können – selbst wenn moderne Gegenmaßnahmen zur Duplikaterkennung eingesetzt werden.

Aus gesellschaftlicher Sicht deckt die Forschung eine subtile, aber bedeutsame Schwachstelle im Umgang von KI-Systemen mit Datenlöschung auf. Da Verfahren des Unlearning zunehmend zur Erfüllung von Datenschutzvorgaben eingesetzt werden, macht diese Arbeit deutlich, wie dringend robuste Methoden zur Erkennung und Verwaltung von doppelten Daten benötigt werden – damit Unlearning nicht nur effektiv, sondern auch vertrauenswürdig ist.

Die Forschenden wollten das Verständnis sogenannter „Membership Inference Attacks“ verbessern – also Angriffen, bei denen anhand der Ausgaben eines Machine-Learning-Modells festgestellt werden soll, ob ein bestimmter Datenpunkt zum Training des Modells verwendet wurde. Solche Angriffe können erhebliche Datenschutzrisiken mit sich bringen, insbesondere wenn es um sensible oder proprietäre Daten geht.

Bisherige Methoden für diese sogenannten „Label-only“-Angriffe – bei denen nur die vorhergesagten Ausgabelabels eines Modells sichtbar sind – erfordern entweder sehr viele Anfragen an das Modell oder liefern ungenaue Ergebnisse, vor allem wenn das Modell auf unterschiedliche Daten unterschiedlich reagiert. Die Forschenden schlagen mit „DHAttack“ eine neue Technik vor, die die Anzahl der nötigen Anfragen reduziert und gleichzeitig die Genauigkeit erhöht. Dabei wird gemessen, wie stark ein Datenpunkt verändert werden muss, bevor das Modell seine Vorhersage ändert. Im Gegensatz zu früheren Ansätzen erfolgt diese Veränderung gezielt in eine feste Richtung – etwa hin zu einem klar unterscheidbaren Punkt wie einem vollständig weißen Bild. Das vereinfacht die Messung und macht sie verlässlicher.

Zur weiteren Verbesserung der Genauigkeit vergleichen die Forschenden das Verhalten des Zielmodells mit dem Verhalten ähnlicher Modelle, die ohne den spezifischen Datenpunkt trainiert wurden. Dieser Vergleich hilft dabei einzuschätzen, ob ein Datenpunkt wahrscheinlich Teil des ursprünglichen Trainings war. Über verschiedene Datensätze und Modelltypen hinweg zeigte sich, dass ihr Ansatz mit deutlich weniger Anfragen bessere Ergebnisse lieferte als bestehende Methoden. Selbst unter abgeschwächten Annahmen – etwa ohne genaue Kenntnis der Architektur des Zielmodells – blieb DHAttack effektiv.

Diese Forschung bietet einen praxisnäheren Weg, um zu überprüfen, ob ein Machine-Learning-Modell bestimmte Daten verwendet hat, und könnte damit helfen, Datenschutz und gesetzliche Vorgaben besser durchzusetzen. Gleichzeitig macht sie jedoch auch auf Missbrauchspotenziale aufmerksam und unterstreicht die Notwendigkeit, technische Fortschritte stets mit passenden Schutzmaßnahmen zu begleiten.

Die Forschenden untersuchten, ob moderne Vision-Language-Modelle (VLMs) – KI-Systeme, die Bildverstehen und Textgenerierung kombinieren – anfällig für sogenannte *Membership Inference Attacks* sind. Ziel solcher Angriffe ist es herauszufinden, ob bestimmte Daten – etwa private Fotos oder proprietäre Datensätze – zum Training eines Modells verwendet wurden. Diese Art von Schwachstelle birgt Risiken für Datenschutz und Urheberrechtsschutz.

Im Fokus der Studie stand die besonders sensible Phase des VLM-Trainings, das sogenannte *Instruction Tuning*. Hier entwickelten die Forschenden neue Methoden, um zu ermitteln, ob ein bestimmter Satz aus Bildern und Texten Teil der Trainingsdaten eines Modells war. Ihr innovativer Ansatz basiert auf der Beobachtung, wie sich die Ausgaben eines VLM verändern, wenn dessen „Temperatur“-Parameter variiert wird – ein Wert, der die Zufälligkeit der generierten Antworten beeinflusst. Sie stellten fest, dass Trainingsdaten („Member Data“) empfindlicher auf diese Veränderung reagieren als bisher ungesehene Daten („Non-Member Data“), was eine neue Angriffsmöglichkeit eröffnet.

Die Forschenden testeten ihre Methoden mit verschiedenen VLM-Architekturen und unter unterschiedlichen Annahmen über die Fähigkeiten eines potenziellen Angreifers. Selbst in den anspruchsvollsten Szenarien – etwa wenn nur Bilder ohne begleitende Texte zur Verfügung standen – gelang es ihnen, mit bemerkenswerter Trefferquote zu bestimmen, ob Daten Teil des Trainings waren. Ihre Ergebnisse deuten darauf hin, dass Angreifer selbst mit minimalen Informationen erkennen könnten, ob sensible Daten beim Modelltraining verwendet wurden.

Aus gesellschaftlicher Sicht liefert diese Forschung eine realistische und technisch fundierte Grundlage, um unautorisierte Datennutzung in KI-Modellen aufzudecken. Zwar zeigt sie ein mögliches Missbrauchsszenario auf, doch bietet sie zugleich Dateninhabern und Entwicklern Werkzeuge, um solchen Angriffen entgegenzuwirken. Die Studie unterstreicht die Bedeutung von Transparenz und Rechenschaftspflicht im KI-Training und unterstützt laufende Bemühungen, die Entwicklung von KI mit ethischen und rechtlichen Standards in Einklang zu bringen.

Die Forschenden untersuchten, ob quelloffene Vision-Language-Modelle (VLMs) in der Lage sind, sogenannte „Hateful Memes“ – also Bilder, die Text und visuelle Elemente kombinieren, um schädliche Ideologien zu verbreiten – zu verstehen und verantwortungsvoll damit umzugehen. Anhand eines Datensatzes mit 39 hasserfüllten Memes analysierten sie, wie gut sieben weit verbreitete VLMs solche Inhalte hinsichtlich visueller Hinweise, kultureller Referenzen und emotionalem Ton interpretieren können. Die Modelle zeigten insgesamt solide Leistungen, insbesondere wenn sie zusätzlichen Kontext erhielten – etwa den Namen des Memes. Dies deutet darauf hin, dass sie in der Lage sind, sowohl den oberflächlichen Inhalt als auch bestimmte zugrunde liegende Botschaften zu erfassen.

Die Studie brachte jedoch erhebliche Sicherheitsprobleme ans Licht. Die Modelle erkannten eindeutig hasserfüllte Inhalte oft nicht oder wiesen sie nicht zurück. Mitunter interpretierten sie diese sogar als harmlos oder humorvoll. In einem zweiten Teil der Untersuchung prüften die Forschenden, ob sich VLMs – absichtlich oder unbeabsichtigt – dazu verleiten lassen, hasserfüllte Texte zu generieren, etwa Hassrede, beleidigende Witze oder extremistische Slogans. Das Ergebnis: Rund 40 % der generierten Hassrede sowie über 10 % der generierten Witze oder Slogans wurden als schädlich eingestuft. Besonders auffällig: Viele dieser problematischen Ausgaben entgingen den eingebauten Sicherheitsmechanismen der Modelle, vor allem bei Verwendung ausgefeilter Prompting-Techniken.

Diese Ergebnisse legen nahe, dass VLMs zwar technisch in der Lage sind, komplexe visuelle Inhalte zu erfassen, derzeit aber nicht ausreichend gegen Missbrauch geschützt sind. Aus gesellschaftlicher Perspektive macht die Forschung deutlich, wie dringend notwendig es ist, die Sicherheit und ethische Ausrichtung solcher Modelle zu verbessern, bevor sie breiter eingesetzt werden. Nur so lässt sich verhindern, dass Fortschritte in der Künstlichen Intelligenz unbeabsichtigt zur Verbreitung schädlicher Inhalte im Netz beitragen.

Die Forschenden untersuchten, ob das Finetuning großer Sprachmodelle (LLMs) mit von anderen LLMs generierten Daten weniger Datenschutzrisiken birgt als die Verwendung realer Daten. Hintergrund der Studie ist der wachsende Einsatz synthetischer Daten als potenziell datenschutzfreundliche Alternative. Angesichts der hohen Leistungsfähigkeit moderner LLMs stellten sich die Forschenden jedoch die Frage, ob auch künstlich erzeugte Daten unbeabsichtigte Datenschutzverletzungen zur Folge haben können.

Zur Untersuchung fine-tunten sie verschiedene Modelle mit zwei Methoden: zum einen mit Supervised Finetuning auf unstrukturiertem, LLM-generiertem E-Mail-Inhalt, zum anderen mit *Self-Instruct Tuning* auf synthetischen juristischen Datensätzen. Anschließend setzten sie verschiedene Privacy-Angriffe ein – darunter das Auslesen personenbezogener Informationen (PII) sowie *Membership Inference Attacks* (MIA) –, um die potenziellen Risiken zu bewerten.

Die Ergebnisse zeigen: Selbst bei der Nutzung synthetischer Daten steigt die Wahrscheinlichkeit, dass feinjustierte Modelle sensible Informationen preisgeben. In einem Fall stieg die PII-Leakage um über 20 %, in einem anderen erhöhte sich die Erfolgsquote von MIA-Angriffen um mehr als 40 %. Besonders deutlich traten diese Risiken zutage, wenn die synthetisch erzeugten Daten in Inhalt oder Struktur stark dem Pretraining-Material der Modelle ähnelten.

Zudem zeigte die Studie, dass Faktoren wie die Datensatzgröße, die Lernrate und die Qualität der generierten Daten das Ausmaß des Datenschutzrisikos erheblich beeinflussen. Niedrigere Lernraten und größere inhaltliche Vielfalt der Daten konnten das Risiko zwar verringern – jedoch nicht vollständig ausschließen.

Diese Forschung liefert eine wichtige Warnung: Synthetische Daten bieten keinen automatischen Schutz der Privatsphäre. Sie machen deutlich, wie sorgfältig Finetuning-Prozesse gestaltet und durch zusätzliche Schutzmaßnahmen abgesichert werden müssen. Indem sie bisher wenig beachtete Schwachstellen aufzeigt, leistet die Studie einen Beitrag zur Entwicklung sichererer KI-Systeme – gerade in einer Zeit, in der der Einsatz von LLMs und synthetischen Daten stetig zunimmt.