„Der neue Goldstandard des Privatsphäre-Schutzes“

Dass Daten in unserer durchdigitalisierten Welt längst zum handelbaren Gut geworden sind, ist eine Binsenweisheit. Längst nicht allen Menschen bewusst ist allerdings, wie sehr Datensammlung und -analyse der Gesellschaft heute schon dienen und in Zukunft noch dienen könnten. Ein paar Beispiele: Die Analyse von medizinischen Daten wie Blutwerte, Sauerstoffsättigung, MRT-Aufnahmen oder Röntgenbilder mithilfe von künstlicher Intelligenz (KI) wird laut Expert:innen unsere Gesundheitsversorgung in den kommenden Jahren auf ein ganz neues Level heben. Die KI kann riesige Datenmengen kombinieren und analysieren. Auch autonomes Fahren ist nicht denkbar, ohne die Auswertung immenser Mengen von Sensordaten, die überall am und im Auto gesammelt werden. Ganz zu schweigen von längst verbreiteten Bequemlichkeiten wie der Anzeige, wann im Schwimmbad wenig Gedränge zu erwarten ist, oder wo der nächste Stau droht. All das ist nur möglich durch die Auswertung riesiger Datenmengen.

Viele Daten, großer Schutzbedarf

An diesen Beispielen ist aber auch leicht abzulesen, wo das Problem liegt: Viele der genannten Daten sind höchst sensibel und verraten einiges über uns, unseren Gesundheitszustand, unsere Gewohnheiten und Bewegungsmuster. Der Schutz der Privatsphäre, ein an sich altes Thema, wird so heute relevant wie nie. Seit 2006 scheint eine Lösung gefunden. „Der neue Goldstandard des Privatsphäre-Schutzes ist Differential Privacy“, sagt Zhikun Zhang.

Das Ziel von Differential Privacy (DP) ist laut dem Forscher im Grunde einfach: aus einem bestehenden Datensatz soll soviel wie möglich über eine bestimmte Personengruppe gelernt werden, ohne etwas über die einzelnen Personen in dieser Gruppe zu erfahren.

Was steckt hinter Differential Privacy?

„Zum einen verbirgt sich hinter dem Begriff eine mathematische Definition von Privatsphäre. Es ist eine Art statistische Garantie, dass die Daten einzelner Menschen keinen Einfluss auf das Ergebnis von Abfragen zu größeren Datensätzen haben“, erklärt Zhang. „Zum anderen wird damit oft auch das konkrete Verfahren beschrieben, mit dem Datenbankabfragen so beantwortet werden, dass der Datenschutz gewährleistet bleibt.“ Entwicklerin ist die Kryptografin Cynthia Dwork. Gemeinsam mit Kolleg:innen stellte sie erstmals eine Formel vor, mit der gemessen werden kann, wie groß die Verletzung der Privatsphäre für eine Person ist, wenn ihre Daten Teil einer größeren Datensammlung und damit öffentlich werden.

Rauschen für mehr Privatsphäre

Mit den vielen gesammelten Daten werden heute meist Machine-Learning-Modelle für verschiedene Aufgaben trainiert. So könnte zum Beispiel ein Modell auf einem großen Satz von Daten von Krebspatient:innen wie Blutwerten, Geninformationen und MRT-Befunden dafür trainiert werden, künftig weitaus früher als bisher eine sich entwickelnde Krebserkrankung zu erkennen. Damit die überaus sensiblen medizinischen Daten dabei sicher bleiben, müssen sie in irgendeiner Form anonymisiert werden. Es reicht allerdings nicht, persönlich identifizierende Merkmale wie Name oder Adresse zu entfernen. Denn: Durch mehrere Anfragen und die Kombination von Merkmalen, die auf den ersten Blick wenig aussagekräftig erscheinen, lassen sich häufig eindeutige Rückschlüsse auf Individuen ziehen. Stattdessen wird den Daten sogenanntes Rauschen zugefügt. Dahinter stecken verschiedene Verfahren um eine Art kontrollierten Zufall bei der Beantwortung von Abfragen einzuführen.

Noch viele Herausforderungen für die Forschung

Wichtig ist, dass die Datenverarbeitung unter diesem Rauschen trotzdem noch ihre statistische Aussagekraft behält. Und das ist nicht die einzige Schwierigkeit. Es müssen oft mehrere spezielle Algorithmen eingesetzt werden und zudem eine Art Buchführung über die Zugriffe geführt werden, denn zu viele Abfragen können auch bei verrauschten Daten wiederum zu viel preisgeben. Die Lösung für diese Probleme können künstlich hergestellte Daten mit starken Privatsphäre-Garantien sein. „Wir veröffentlichen solche synthetische Daten, die DP erfüllen und die statistischen Eigenschaften der echten Datensätze wiedergeben, aber nicht denselben Limitierungen bei der Verarbeitung unterliegen.“

Die Herausforderung bei der Erstellung von synthetischen Daten unter DP besteht laut Zhang darin, möglichst informative statistische Informationen zu identifizieren. Nur so können auch aus komplexen Datensätzen, etwa solche die zum Beispiel die Bewegungsmuster von Menschen abbilden oder ihre sozialen Verknüpfungen innerhalb von Netzwerken, so viele nützliche Daten wie möglich extrahiert werden. Er hat zu seiner Forschung verschiedene Paper publiziert, die er unter anderem auf dem renommierten USENIX Security Symposium vorgestellt hat.

Facettenreiches Thema

Seit Oktober 2022 forscht Zhang unter der Sonne Kaliforniens. „Ich bin Teilnehmer im CISPA-Stanford-Programm und bin derzeit Gastprofessor an der Stanford University.“ Differential Privacy bleibt weiterhin ein Thema, das ihn umtreibt. „Ich forsche derzeit mit einem Kollegen aus Stanford zur Frage, wie es um den Privatsphäre-Schutz innerhalb von Large-Language-Modellen, wie sie etwa in ChatGPT stecken, bestellt ist und welchen Einfluss der Einsatz von Differential Privacy auf solche Modelle haben könnte.“ Goldgräberstimmung.