E-mail senden E-Mail Adresse kopieren

2022-08-31
Annabelle Theobald

Meta Research fördert Arbeit von CISPA-Forscher Dr. Sebastian Stich

Für seine Forschung zu effizienten Algorithmen, die Privatsphäre-Schutz und Leistung von föderalen Machine-Learning-Ansätzen besser in Einklang bringen, erhält CISPA-Faculty Sebastian Stich eine Förderung in Höhe von 100 000 Dollar von Meta Research.

Die Möglichkeiten, die maschinelles Lernen (ML) bietet, werden immer vielfältiger. So sagen ML-Modelle zum Beispiel das Wetter oder Staus vorher, geben Produktempfehlungen an Verbraucher:innen oder sorgen in autonomen Fahrzeugen dafür, dass diese Schilder richtig interpretieren und Hindernisse rechtzeitig erkennen. Auch in der Medizin findet ML bereits Anwendung und gilt als Hoffnungsträger für die Früherkennung und Diagnostik von Erkrankungen. All das lernen die Modelle aus großen Mengen von Daten, zum Teil ganz ohne menschliche Hilfe. 

Die erste Frage von Entwickler:innen und Forscher:innen ist dabei immer: woher die vielen Daten nehmen? Gesammelt werden diese längst überall: In Apps, von Fitnesstrackern und Smart Watches. Sie aber auch sicher auszutauschen, ist eine große Herausforderung für Forschung und Industrie. Viele Forscher:innen weltweit arbeiten an verschiedenen Ansätzen, die Daten sicher zu den Modellen zu bringen. Andere haben sich hingegen für den umgekehrten Weg entschieden: Sie bringen die Modelle zu den Daten. So geschieht es zum Beispiel beim sogenannten föderalen maschinellen Lernen, mit dem sich auch Sebastian Stich intensiv beschäftigt. „Beim föderalen maschinellen Lernen bleiben die gesammelten Datensätze auf den Geräten, die sie erheben. Sie werden nicht wie bei zentralistischen Ansätzen irgendwo auf einem Server zusammengeführt. Stattdessen werten die Geräte ihre Daten lokal aus und trainieren mit den Ergebnissen gemeinsam ein zentral gespeichertes Machine-Learning-Modell.“

Diese Technik kommt schon heute zum Beispiel in Smartphones zum Einsatz, wo damit die Autokorrekturfunktion der Tastaturen verbessert wird. Föderales Lernen (FL) bietet in puncto Datenschutz große Vorteile gegenüber zentralistischen Modellen. Allerdings lassen sich auch für föderale Modelle nur dann ausreichende Privatsphäre-Garantien aussprechen, wenn sichergestellt wird, dass das zentrale Modell letztlich keine identifizierenden Rückschlüsse mehr auf Daten aus den lokalen Teilmodelle zulässt.

An diesem Punkt kommt die sogenannte Differential Privacy ins Spiel. „Differential Privacy ist eigentlich ein mathematisches Modell, mit dem Privatsphäre gemessen werden kann. Oft werden damit aber auch verschiedene Mechanismen bezeichnet, mit denen mehr Privatsphäre-Schutz hergestellt werden kann. So können zum Beispiel durch Hinzufügen von „Noise“ (dt.: Rauschen) gezielt private Eigenschaften in Daten verschleiert werden“, sagt Stich. Zuviel Rauschen führt allerdings auch zu einer Verschlechterung der Datenqualität und kann die Effektivität der Modelle einschränken. „Die Kunst ist, den richtigen Kompromiss zwischen Leistungsfähigkeit und Privatsphäre-Schutz zu finden.“

Dafür braucht es effektive Algorithmen. Und genau an denen arbeitet Stich in dem von Meta Research geförderten Projekt. Ziel des Mathematikers ist konkret, Algorithmen so weiterzuentwickeln, dass sie die Daten nur so viel wie nötig, aber so wenig wie möglich künstlich verändern. So können bei guter Leistung der Modelle starke Privatsphäre-Garantien geben werden. „Bislang wird Privatsphäre meist noch in Bezug auf den gesamten Datensatz bestimmt. Bestehende Algorithmen addieren – vereinfacht gesagt – auf alle Datenpunkte das gleiche Maß an Rauschen. Die Ergebnisse sind dann meist entweder hinsichtlich der Leistungsfähigkeit der Modelle oder was den Privatsphäre-Schutz angeht, noch nicht zufriedenstellend.“ Fruchtbarer könnten seines Erachtens Ansätze sein, die Datensätze zunächst genau analysieren und dann abwägen, in welchen Punkten diese geschützt werden müssen. „Solche Ansätze existieren bereits. Wir müssen sie aber noch besser verstehen. Deshalb will ich noch mehr zur Theorie beitragen und konkrete Verbesserungen vorschlagen.“ Außerdem will der Forscher im Projekt weiter daran arbeiten, die Kommunikation zwischen den lokalen Teilmodellen und dem zentralen Modell zu verbessern.

Bis FL großflächig zum Einsatz kommt, wird es vermutlich noch etwas dauern. Sebastian Stich trägt mit seiner Forschung aber dazu bei, das Fundament für eine sichere und effektiven Nutzung zu legen. „Ich freue mich über die Förderung von Meta Research. Sie hilft mir dabei, meine Forschung weiter voranzutreiben und Nachwuchswissenschaftler:innen anzustellen, die mir dabei helfen.“