Privacy4FMs -Privacy Protection and Auditingfor Foundation Models
In diesem vom European Research Council mit einem Starting Grant geförderten Projekt will CISPA-Faculty Dr. Franziska Boenisch zusammen mit einem Team neue Methoden entwickeln, die verhindern, dass Foundation Models wie GPT oder LLaMA ungewollt private Informationen preisgeben – und gleichzeitig will sie zuverlässige Auditing-Tools schaffen, die technische Risiken mit Datenschutzstandards wie der DSGVO verbinden.
©ERC
Neue sogenannte Foundation Models (FMs) wie GPT, LLaMA oder Stable Diffusion erzielen derzeit außergewöhnliche Leistungen in vielen verschiedenen Bereichen. Sie können hochwertige Texte, Bilder und Audiodateien erzeugen und treiben so zahlreiche Innovationen in der Industrie voran.
Der Erfolg dieser Modelle beruht auf einem Wandel im maschinellen Lernen: Statt für jede einzelne Aufgabe ein spezielles Modell mit sorgfältig ausgewählten Daten zu trainieren, werden FMs zunächst mit riesigen, unsortierten Datenmengen vortrainiert. Dadurch entstehen sehr leistungsfähige Allzweck-Modelle, die anschließend mit kleineren, themenspezifischen Datensätzen an konkrete Aufgaben angepasst werden.
Allerdings haben FMs eine Schwachstelle: Sie können Informationen aus ihren Trainingsdaten ungewollt wiedergeben. Studien zeigen, dass solche Modelle in der Lage sind, einzelne Datensätze aus dem Vortraining oder der Anpassung nahezu zu rekonstruieren. Das stellt ein ernstes Risiko für den Datenschutz dar, insbesondere wenn vertrauliche Daten im Spiel sind. Deshalb braucht es Verfahren, die den Schutz der Privatsphäre über den gesamten Lebenszyklus eines FM sicherstellen – von der Vortrainingsphase bis hin zum Einsatz.
Unser Projekt hat das Ziel, die Quellen möglicher Datenlecks zu identifizieren, Datenschutzgarantien sowohl für das Vortraining als auch die Anpassung zu entwickeln und FMs systematisch auf Verstöße gegen die Privatsphäre zu überprüfen. Dafür müssen wir drei große Herausforderungen überwinden:
Das bislang begrenzte Verständnis darüber, wie Datenschutzrisiken im Vortraining entstehen.
Das Fehlen formaler Datenschutzgarantien, die Vortraining und Anpassung gemeinsam abdecken.
Die geringe Wirksamkeit heutiger Prüfverfahren zur Überwachung der Privatsphäre.
Unsere Lösung sieht ein neuartiges theoretisches Rahmenwerk vor, das konkrete Datenschutzgarantien für FMs im Pretrain-Adapt-Ansatz ermöglicht. Der entscheidende Gedanke: Da Vortraining und Anpassung eng miteinander verflochten sind, benötigen unterschiedliche Datenpunkte auch individuell zugeschnittene Schutzmaßnahmen. Neue Methoden zur Identifikation, Umsetzung und Überprüfung solcher individuellen Garantien sollen es ermöglichen, Datenschutzverletzungen sowohl im Vortraining als auch in der Anpassung messbar einzuschränken und aufzudecken.
So können wir die Vorteile von Foundation Models für Gesellschaft und Industrie nutzbar machen – ohne dabei die Privatsphäre Einzelner zu gefährden.
©ERC
Neue sogenannte Foundation Models (FMs) wie GPT, LLaMA oder Stable Diffusion erzielen derzeit außergewöhnliche Leistungen in vielen verschiedenen Bereichen. Sie können hochwertige Texte, Bilder und Audiodateien erzeugen und treiben so zahlreiche Innovationen in der Industrie voran.
Der Erfolg dieser Modelle beruht auf einem Wandel im maschinellen Lernen: Statt für jede einzelne Aufgabe ein spezielles Modell mit sorgfältig ausgewählten Daten zu trainieren, werden FMs zunächst mit riesigen, unsortierten Datenmengen vortrainiert. Dadurch entstehen sehr leistungsfähige Allzweck-Modelle, die anschließend mit kleineren, themenspezifischen Datensätzen an konkrete Aufgaben angepasst werden.
Allerdings haben FMs eine Schwachstelle: Sie können Informationen aus ihren Trainingsdaten ungewollt wiedergeben. Studien zeigen, dass solche Modelle in der Lage sind, einzelne Datensätze aus dem Vortraining oder der Anpassung nahezu zu rekonstruieren. Das stellt ein ernstes Risiko für den Datenschutz dar, insbesondere wenn vertrauliche Daten im Spiel sind. Deshalb braucht es Verfahren, die den Schutz der Privatsphäre über den gesamten Lebenszyklus eines FM sicherstellen – von der Vortrainingsphase bis hin zum Einsatz.
Unser Projekt hat das Ziel, die Quellen möglicher Datenlecks zu identifizieren, Datenschutzgarantien sowohl für das Vortraining als auch die Anpassung zu entwickeln und FMs systematisch auf Verstöße gegen die Privatsphäre zu überprüfen. Dafür müssen wir drei große Herausforderungen überwinden:
Das bislang begrenzte Verständnis darüber, wie Datenschutzrisiken im Vortraining entstehen.
Das Fehlen formaler Datenschutzgarantien, die Vortraining und Anpassung gemeinsam abdecken.
Die geringe Wirksamkeit heutiger Prüfverfahren zur Überwachung der Privatsphäre.
Unsere Lösung sieht ein neuartiges theoretisches Rahmenwerk vor, das konkrete Datenschutzgarantien für FMs im Pretrain-Adapt-Ansatz ermöglicht. Der entscheidende Gedanke: Da Vortraining und Anpassung eng miteinander verflochten sind, benötigen unterschiedliche Datenpunkte auch individuell zugeschnittene Schutzmaßnahmen. Neue Methoden zur Identifikation, Umsetzung und Überprüfung solcher individuellen Garantien sollen es ermöglichen, Datenschutzverletzungen sowohl im Vortraining als auch in der Anpassung messbar einzuschränken und aufzudecken.
So können wir die Vorteile von Foundation Models für Gesellschaft und Industrie nutzbar machen – ohne dabei die Privatsphäre Einzelner zu gefährden.