Unser neuer Faculty: Dr. Adam Dziedzic, Experte für vertrauenswürdiges maschinelles Lernen
„Es gibt zwei Wege, Forschung zu machen: Einer davon ist, Experte in einem bestimmten Feld zu sein und mit seiner Expertise, die wie eine Art Hammer fungiert, auf die Nägel zu schlagen, die man so findet“, erklärt Adam Dziedzic. Mit Nägeln meint er die Probleme, die im Bereich des maschinellen Lernens (ML) aufgrund der rasanten Entwicklungen derzeit wie Pilze aus dem Boden schießen. „Die SprintML-Forschungsgruppe ist anders motiviert. Wir wollen wissen: Was sind die großen Probleme unserer Zeit? Und dann suchen wir dafür Lösungen. Das ultimative Ziel ist für mich, dass Nutzer:innen von ML-Modellen diesen wirklich vertrauen können“, so der Forscher. Seit dem 1. September 2023 forscht Dziedzic am CISPA als leitender Wissenschaftler und adressiert mit seiner Forschung fast alle großen Herausforderungen des maschinellen Lernens: Privatheit, Vertraulichkeit, Robustheit, Interpretierbarkeit, Sicherheit und eben die Königsdisziplin Vertrauenswürdigkeit, in der die anderen Herausforderungen aufgehen. Was vergleichsweise simpel klingt – vertrauenswürdige künstliche Intelligenz zu ermöglichen – erfordert schon fast Fakirkünste, um hier im Bild zu bleiben. Denn damit KI vertrauenswürdig ist, müssen wir ihre Entscheidungen verstehen, sie muss fair handeln, präzise Vorhersagen machen und darf keine geheimen Daten verraten.
Vertrauen braucht eine breite Basis
„Um uns unserem Ziel anzunähern, ruht unsere Arbeit derzeit auf drei großen Säulen: dem Privatsphäreschutz, der Vertraulichkeit und Robustheit der Modelle“, sagt Dziedzic. Viele der heutigen ML-Modelle sind laut dem Forscher bereits erstaunlich leistungsfähig: Sie sind der Lage, ohne menschliche Aufsicht oder vorheriges Kennzeichnen von Daten aus großen Datensätzen zu lernen, darin Muster zu erkennen und später verschiedenste Aufgaben zu lösen. Wer schon einmal mit Chatbots wie ChatGPT interagiert hat, weiß, dass es kaum Fragen gibt, auf die die Maschine keine Antwort parat hat. Selbst auf die heikelsten. Und so geben viele Menschen über die Eingaben, die sie im Chat machen, ungewollt viel über sich preis. „Das ist eins meiner großen Forschungsthemen: die Sicherheit von Daten bei der Benutzung von Chatbots“, sagt Dziedzic. Das ist aber bei Weitem nicht das einzige Thema, das den Forscher umtreibt. Um ML-Modellen vertrauen zu können, ist neben dem Schutz der Daten bei ihrer Benutzung auch die Integrität und Herkunft der Modelle von Bedeutung. Deshalb beschäftigt sich Dziedzic auch mit der Frage, wie sich verhindern lässt, dass ML-Modelle kopiert oder manipuliert werden. „Die Entwickler:innen von ML-Modellen haben oft viel Zeit, Geld, Computingpower und enorme Mengen von Daten eingesetzt, um ihre Modelle zu trainieren. Leider kommt es dann immer wieder dazu, dass diese Modelle gestohlen werden. Entweder zu dem Zweck das Modell ohne monetären oder rechnerischen Aufwand nutzen zu können, oder aber, um mithilfe genauer Kenntnisse des Models weitere Attacken darauf ausführen zu können“, erklärt Dziedzic.
Für Modelle, die nur mit vorab von Menschen gekennzeichneten Daten trainiert werden, existieren laut dem Forscher schon eine Reihe von Abwehrmechanismen für Diebstahl-Attacken. Hingegen sogennante „self-supervised models“, also Modelle, die auch aus ungelabelten Daten lernen können, seien bislang oft Freiwild für Angreifer:innen. „Wir haben deshalb kürzlich einen neuen Ansatz vorgestellt, der das zum Training genutzte Datenset wie eine Art Signatur auslesen kann und so denn Rückschluss auf Diebstähle und Kopien erlaubt“, sagt Dziedzic. Er hält diesen Ansatz für sehr vielversprechend, um die Integrität der Modelle künftig besser zu schützen.
Die Robustheit der Modelle
Kommen wir zur dritten Säule: die Robustheit der Modelle. „Damit ist vor allem ihre Stabilität im Falle von Angriffen und Daten-Manipulationen gemeint.“ Denn spätestens, wenn künstliche Intelligenz für uns so große Aufgaben wie die Diagnose von Krankheiten übernimmt, können wir ihre Fehler nicht mehr tolerieren. Dziedzic interessiert sich derzeit insbesondere für die Robustheit von sogenanntem kollaborativen maschinellen Lernen. Kollaboratives Lernen ist der Oberbegriff für verschiedene ML-Lernmethoden. Sie alle sind darauf ausgerichtet, dass mehrere Maschinen zusammenarbeiten, um gemeinsam bessere Ergebnisse zu erzielen. „So wie ein Arzt sich mit Kolleg:innen austauscht, um seine Diagnosefähigkeit zu verbessern, lernen auch ML-Modelle besser, wenn sie zusammenarbeiten.“ Kollaboratives Lernen, bei dem häufig auch Trainingsdaten geteilt werden, berge aber auch Risiken, insbesondere in so hochsensiblen Bereichen wie dem Gesundheitswesen: „Private Daten können versehentlich zwischen den Lernenden durchsickern oder die Fehleinschätzungen einiger Beteiligter könnten die Zuverlässigkeit der gemeinsamen Prognosen beeinträchtigen“, erklärt der Forscher. Bisherige Versuche, diese Risiken zu adressieren, seien oft nur auf einzelne Problembereiche fokussiert oder führten zu einem signifikanten Verlust der Leistungsfähigkeit der Modelle.
Dziedzic will effektives und vertrauenswürdiges kollaboratives Lernen ermöglichen
„Wir wollen kollaboratives Lernen auf ein ganz neues Level bringen. Anstatt Modelle von Grund auf zu trainieren, wollen wir sogenannte Open Foundation Models (OFM) als Basis Nutzen.“ OFMs sind große vortrainierte ML-Modelle, die extrem gut darin sind, aus den Rohdaten Merkmale auszulesen, die von den ML-Modellen verarbeitet werden können. Mit ein bisschen Finetuning ließen sie sich auch für spezielle Einsatzbereiche fit machen. „Damit das klappt, brauchen wir Methoden, die es uns erlauben, Datenschutzgarantien für solche kollaborativen Modelle abzugeben. Zudem wollen wir dafür sorgen, dass die Modelle nicht versehentlich private Informationen durchsickern lassen und wir wollen die Robustheit solcher Modelle gegen Angriffe verbessern. Damit ließen sich zum Beispiel beim Einsatz von KI in der Medizin enorme Potenziale eröffnen.“ Ein großes Vorhaben, an dem der Forscher zusammen mit seiner Forschungsgruppe SprintML Lab arbeiten wird. Diese leitet er gemeinsam mit Dr. Franziska Boenisch, die ebenfalls Faculty am CISPA ist.
Adams bisheriger Lebenslauf
Dziedzic war vor seiner Zeit als Faculty am CISPA als Postdoctoral Fellow am Vector Institute und an der University of Toronto. Er war dort Mitglied des CleverHans Lab und erwarb seinen Doktortitel an der University of Chicago. Seinen Bachelor- und Master-Abschluss hat Dziedzic an der Technischen Universität Warschau gemacht. Außerdem hat er an der Technischen Universität Dänemark studiert und an der EPFL in der Schweiz geforscht. Später hat er am CERN in Genf und bei der Barclays Investment Bank in London sowie bei Microsoft Research in Redmond in den USA und bei Google in Madison gearbeitet.
Er sagt, es habe viele Gründe gegeben, warum er sich im vergangenen Jahr für den Wechsel am CISPA entschieden hat: „Einer ist: Das CISPA wächst schnell und entwickelt sich noch. Ich freue mich darauf, dem Zentrum beim Wachsen zu helfen und zur Erfolgsgeschichte beitragen zu können. Zudem ist CISPA bereits jetzt schon einer der Top-Plätze in der Welt, was Sicherheit und Vertrauenswürdigkeit vor allem auch im Bereich des maschinellen Lernens angeht. Das CISPA stellt uns Forschenden eine gute Umgebung bereit, um uns zu entfalten. Das sehen wir auch an der Entwicklung unserer Forschungsgruppe SprintML Lab. Diese wächst gut, wir haben hervorragende Bewerber:innen. Die gute Reputation des CISPA gibt uns die Möglichkeit, wirklich ambitionierte Leute zu finden. Mit denen zusammenzuarbeiten, ist eine echte Freude.“
Wer sich mehr für Adams Forschung und Themen interessiert, findet auf seiner Website einen Blog: https://adam-dziedzic.com/blog/