Wie Maschinen das Vergessen lernen

Im Gegensatz zu Menschen hat künstliche Intelligenz (KI) ein echtes Elefantengedächtnis. Was die ihr zugrunde liegenden Machine-Learning-Modelle einmal aus Daten gelernt haben, vergessen sie nicht mehr. Menschen haben allerdings genau darauf ein Recht – zumindest dann, wenn ihre personenbezogenen Daten Teil des Trainingsprozesses der KI waren. Dieser Vergessensprozess wird Machine Unlearning genannt. Wie das auch für komplexe Machine-Learning-Modelle effektiv funktionieren kann, zeigt CISPA-Forscherin Min Chen in ihrem Paper „Graph Unlearning“. Ihre Arbeit stellt sie auch auf der renommierten IT-Sicherheitskonferenz CCS vor.

Das Recht auf Vergessenwerden – eine Art Vetorecht gegen die unendliche Speicherung der eigenen Daten – ist schon seit den frühen 2000er-Jahren ein viel diskutiertes Thema. Die EU hat es 2018 schließlich für all ihre Bürger:innen in der Datenschutzgrundverordnung verankert. Jeder Löschfall muss eigens rechtlich bewertet werden, denn dem Recht auf Vergessenwerden stehen Meinungs- und Pressefreiheit gegenüber, die im Einzelfall wichtiger sein können. In der Praxis streiten Menschen seither regelmäßig vor allem mit Suchmaschinen wie Google um die Löschung peinlicher Videos, unvorteilhafter Bilder und veralteter Berichterstattung.

„Im Kontext des Maschinellen Lernens würde die Umsetzung des Rechts auf Vergessenwerden bedeuten, dass die Anbieter:innen auf Wunsch Nutzer:innen-Daten aus dem Trainingsset ihres Modells streichen“, erklärt Min Chen. Ein legitimes Anliegen – allerdings ist die Löschung von Trainingsdaten bei Weitem nicht so leicht, wie es sich anhört. Denn: Wie und was genau Machine-Learning-Modelle aus den gezeigten Daten gelernt haben, ist oft nicht oder nur teilweise nachvollziehbar. Einzelne Datensätze und deren Auswirkungen auf Vorhersagen des Modells spurlos zu entfernen, ist kaum möglich. „Ein komplettes Neutraining mit einem bereinigten Datensatz ist bei Modellen, die auf großen Datenmengen trainiert wurden, zeit- und häufig auch kostenintensiv“, erklärt Chen.

Für relativ einfache ML-Modelle, die mit Bild oder Textdaten arbeiten, gibt es seit Kurzem eine bessere Lösung als das Neutraining: der Algorithmus SISA. „Er splittet die Trainingsdaten der KI vor Trainingsbeginn zufällig auf. Mit jedem Teil des Datensatzes wird ein eigenes kleines Machine-Learning-Modell trainiert. Lässt man die Modelle parallel laufen, können sie so effektiv sein, wie ein großes. Beantragt nun eine Person die Löschung ihrer Daten, muss nur das Teil-Modell neu trainiert werden, das auf dem jeweiligen Datensatz trainiert wurde“, erklärt Chen.

Dieses Vorgehen lässt sich allerdings nicht unverändert auf komplexe ML-Modelle wie etwa „Graph Neural Networks“ (GNN) anwenden. „Graph neural networks sind Modelle, die auch komplexe Netzwerkstrukturen, wie etwa soziale Netzwerke, oder auch Verkehrs- oder Finanznetzwerke abbilden können. Würde man deren Trainingsdaten wie bei den anderen ML-Modellen einfach zufällig aufsplitten, würde die Nützlichkeit der damit trainierten graphbasierten Modelle enorm eingeschränkt.“

Gemeinsam mit Kollegen der Purdue University und des CISPA hat Min Chen deshalb eine ganz neue Methode des Machine-Unlearning entwickelt, die auch bei GNN’s angewandt werden kann. Sie hat ihren Ansatz Graph Eraser genannt. Neben zwei neuen Algorithmen, welche die Graphdaten sinnvoll teilen, präsentiert Chen auch eine neue lernbasierte Methode, um Daten mathematisch sinnvoll zusammenzuführen.

„Angewendet auf große, real existierende Datensets ist der Graph Eraser fast 36 Mal schneller als ein Neutraining des Modells. Bei kleinen Datensets immerhin doppelt so schnell“, sagt Min Chen. Ihr Paper „Graph Unlearning“ erfährt auch in der Community große Aufmerksamkeit und wurde auf der Top-IT-Konferenz CCS angenommen, wo sie ihre Arbeit im November 2022 vorstellen wird.

Min Chen forscht seit August 2019 in der Gruppe von CISPA-Gründungsdirektor und CEO Prof. Dr. Michael Backes und kommt bald in ihr letztes Jahr als PhD-Studentin. „Der Graph Eraser ist erst der Anfang unserer Forschung zum Thema Machine Unlearning bei GNN‘s. Wir arbeiten immer weiter an effektiven und eleganten Lösungen.“

zum paper