So könnten Angreifer:innen Machine-Learning-Modelle kapern
Maschinelles Lernen gilt als Schlüsseltechnologie der Künstlichen Intelligenz und kommt zum Beispiel in vielen sensiblen Bereichen wie dem autonomen Fahren, bei Finanzanwendungen oder in Authentifizierungslösungen wie Face ID zum Einsatz. Mithilfe von Lernalgorithmen werden mittlerweile komplexe Modelle entwickelt, die aus Erfahrung klug werden und so selbständig Vorhersagen und Entscheidungen treffen können. Ähnlich einem Menschen, der sich durch das Lesen vieler Bücher weiterbildet, benötigt ein Modell in der Trainingsphase viel Dateninput, um später gut zu funktionieren. „Da Trainingsdaten schwer zu beschaffen sind und teils Millionen Datensätze für das Training gebraucht werden, arbeiten häufig verschiedene Nutzer:innen zusammen, um ein Modell mit den entsprechenden Datensätzen zu trainieren. Daten aus verschiedenen Quellen zusammenzuführen, birgt allerdings Risiken“, sagt Salem.
Mit sogenannten „Data Poisoning Attacks“ (dt.: Datenvergiftungsattacken) können Daten und damit die Modelle schon während des Trainingsprozesses manipuliert werden. „Zum Beispiel könnte das Bild eines Apfels als Banane gelabelt werden und so das Modell in die Irre geführt werden“, erklärt Salem. Solche Attacken sind normalerweise recht einfach zu entdecken, da die manipulierten Datensätze anders aussehen und zudem die Modelle die Original-Aufgabe nach einer Manipulation nicht mehr gut erfüllen. Den Eingriff zu verschleiern ist allerdings möglich. Mehr noch ist sogar möglich, das Modell zusätzlich zur eigentlichen Aufgabe eine fremde Aufgabe ausführen zu lassen, ohne dass die Modell-Eigentümer:innen es merken, wie Ahmed Salem in seinem Paper zeigt.
Angreifer:innen können so nicht nur die mittlerweile enorm kostspieligen Modelle kapern und kostenlos nutzen. Die Attacke kann auch zu rechtlichen Risiken für die Modelleigentünmer:innen führen, die unbemerkt ihre Modelle unter Umständen auch für illegale oder unethische Zwecke hergeben. „Angreifer:innen könnten zum Beispiel ein Modell so manipulieren, dass es für sie massenweise Hasskommentare produziert, die dann über die Sozialen Medien verteilt werden können“, erklärt Salem.
Es existieren laut dem Forscher schon Verteidigungsmechanismen, die gegen Model-Hijacking-Angriffe eingesetzt werden können. „Leider reduzieren diese Mechanismen häufig auch signifikant die Funktion der Modelle“, sagt Salem. Hier entsprechende Lösungen zu finden, die sowohl wirksam gegen die Angriffe sind als auch so wenig wie möglich in die Funktionalität der Modelle eingreifen, sei ein interessantes künftiges Forschungsfeld.
Ahmed Salem hat inzwischen sein PhD-Studium am CISPA abgeschlossen und arbeitet seit Februar 2022 als Postdoc bei Microsoft Research in Cambridge. Neben Datenschutz und Privatsphäre von Machine-Learning-Modellen beschäftigt ihn auch angewandte Kryptografie.