E-mail senden E-Mail Adresse kopieren

2022-08-25
Annabelle Theobald

Qualcomm-Award für CISPA-Forscherin Dingfan Chen

Für ihren innovativen Forschungsansatz zur privatsphärekonformen Erzeugung synthetischer Daten mithilfe von künstlicher Intelligenz wird CISPA-Forscherin Dingfan Chen vom Tech-Unternehmen Qualcomm ausgezeichnet und erhält eine Förderung in Höhe von 40 000 US Dollar. 

Röntgenbilder, MRT-Aufnahmen, die genomische Beschaffenheit eines Tumors, Laborwerte und individuelle Krankengeschichte – all diese Daten spielen bei der Früherkennung, Behandlung und Diagnostik von Erkrankungen eine entscheidende Rolle. Studien zeigen, dass Künstliche Intelligenz (KI) diese vielen komplexen Daten schon heute teils zuverlässiger analysieren kann als Ärzte mit jahrzehntelanger Erfahrung.

Die Medizin ist dabei nicht der einzige Bereich, in dem KI revolutionär wirken könnte. Doch an ihrem Beispiel lässt sich am besten erklären, warum der grundlegende Wandel noch ein bisschen auf sich warten lässt: Dem Traum von einer Welt mit weniger Krankheiten und besseren Behandlungsmöglichkeiten steht der Alptraum einer Welt ohne Privatsphäre gegenüber. Denn damit Machine-Learning-Modelle Ärzt:innen unterstützen können, müssen sie mit großen Mengen an Daten trainiert werden. Solche Daten sind hochsensibel, ebenso komplex – und bislang nur schwer zu bekommen. Das liegt daran, dass die wenigen vorhandenen Datensätze aufgrund von Datenschutzbedenken nicht für die Forschungsgemeinde öffentlich zur Verfügung gestellt werden kann. Die gute Nachricht: Forscher:innen auf der ganzen Welt arbeiten längst an innovativen Ansätzen, mit denen sich Fortschritt und Privatsphäre-Schutz vereinbaren lassen.

Eine dieser Forscher:innen ist Dingfan Chen. Die PhD-Studentin sieht in der künstlichen Herstellung von neuen Daten eine mögliche Lösung, um Modelle gut für ihre Aufgaben zu trainieren. „Die künstlichen Daten basieren auf dem rein strukturellen Verständnis echter Datensätze und können keine identifizierenden Merkmale enthalten.“ Die künstlichen Repräsentationen von Originaldatensätzen werden mithilfe neuartiger Algorithmen in sogenannten deep generative models erzeugt. Diese generativen Modelle können im Gegensatz zu ihrem Gegenstück, den diskriminativen Modellen, zum Beispiel nicht nur entscheiden, ob auf einem Foto ein Pferd zu sehen ist, sondern können auch ein echt wirkendes Foto von einem Pferd herstellen – oder eben einen neuen Datensatz. Man spricht bei diesem Vorgang von Datensynthetisierung. „Tatsächlich können Datenschutzgarantien in die Datensynthese-Pipeline integriert werden, was dazu führt, dass Synthese viel mehr Privatsphäre als eine einfache Anonymisierung von Daten bringt. Aber leider haben wir mit den bereits existierenden Methoden immer noch Schwierigkeiten, Daten zu erzeugen, die für reale Anwendungsszenarien nützlich sind.“

Denn hier beißt sich die Katze in den sprichwörtlichen Schwanz: „Wenn wir eine strenge theoretische Garantie für die Privatsphärekonformität von synthetisierten Daten geben wollen, brauchen wir für ein entsprechendes Modell zur Datensynthetisierung viele Trainingsdaten. Je mehr Informationen diese Daten über ein Individuum enthalten, etwa zu Alter, Geschlecht oder Geburtsdatum, umso besser können wir damit arbeiten. Aber natürlich gehen auch wieder mehr Datenschutzrisiken mit ihrer Analyse und Verarbeitung einher. Und umso schwieriger ist es wiederum für uns, synthetische Daten zu erzeugen, die die Privatsphäre von Individuen nicht verletzen.“

An diesem Punkt setzt Dingfans Forschung an. Die CISPA-Forscherin will das Problem aus drei Richtungen angehen. „Es gibt bereits verschiedene Ansätze, um die Trainingsziele für die generativen Modelle genauer auf die privatsphärekonforme Datensynthese zuzuschneiden. Bislang fehlt es dazu aber an einer einheitlichen Sichtweise auf die verschiedenen Modellarten, Methoden und Daten. Aber nur wenn wir diese haben, können wir systematisch neue Architekturen erforschen und die Stärken der verschiedenen Methoden zu nutzen.“ Die zweite Maßnahme, die laut Dingfan eine Verbesserung herbeiführen könnte, ist, sich anzuschauen, für welche Aufgaben die Generatoren bisher konzipiert werden. „Die Modelle auf komplexen Datensätzen zu trainieren, ohne ihren Aufgabenbereich einzuschränken, ist sehr schwierig. Deshalb sollten wir die Aufgabenstellung klar festlegen.“ Ein weiterer Verbesserungsschritt, den die Forscherin vorschlägt, ist Daten aus unterschiedlichen Quellen besser nutzbar zu machen. „Bislang wird mit solchen Daten kaum in deep generative models gearbeitet. Hier will ich neue Ansätze finden.“

Über den Qualcomm Award und die Förderung ihres Forschungsvorhaben freut sich die Forscherin. „Der Award ist eine Anerkennung für den Wert meiner Forschung und zeigt, dass diese auch gebraucht wird. Im besten Fall führt meine Arbeit dann zu weiterer Forschung in verschiedenen Richtungen. Natürlich kann ich auch die Förderung brauchen, zum Beispiel um mehr Rechenpower zu kaufen oder um Mitarbeiter:innen anzuheuern.“ Ihre bisherige Forschungserfahrung lässt sie zuversichtlich auf das neue Projekt schauen, das zunächst für ein Jahr geplant ist. „Ich denke, ich kann die Forschung auf diesem Gebiet ein gutes Stück vorantreiben.“

Über das Qualcomm Innovation Fellowship:

Das Qualcomm Innovation Fellowship ist ein jährliches Programm, das sich darauf konzentriert, die innovativsten Doktoranden der Ingenieurwissenschaften in Europa, Indien und den Vereinigten Staaten anzuerkennen, auszuzeichnen und zu fördern. Das europäische Programm belohnt exzellente junge Forscher:innen in den Bereichen künstliche Intelligenz und Cybersicherheit mit Einzelpreisen in Höhe von 40.000 USD, engagierten Mentor:innen aus dem Team von Qualcomm Technologies sowie der Möglichkeit, ihre Arbeit persönlich vor einem Publikum aus technischen Führungskräften am Hauptsitz des Unternehmens in San Diego zu präsentieren.