E-mail senden E-Mail Adresse kopieren

13 CISPA PAPERS AT iclr 2025

Die International Conference on Learning Representations (ICLR) ist die erste Zusammenkunft von Fachleuten, die sich der Weiterentwicklung des Zweigs der künstlichen Intelligenz widmet, der als Repräsentationslernen bezeichnet wird, aber allgemein auch als Deep Learning bekannt ist. Die dreizehnte ICLR-Konferenz findet vom 24. bis 28. April 2025 in Singapur statt.

 

Instruction-getunte große Sprachmodelle (Large Language Models, LLMs) erzielen beeindruckende Ergebnisse in zahlreichen praktischen Anwendungen. Allerdings fehlt ihnen ein wesentliches Sicherheitsmerkmal, das in anderen Bereichen der Informatik selbstverständlich ist: die explizite Trennung von Anweisungen und Daten. Diese Schwäche macht LLMs anfällig für Manipulationen wie indirekte Prompt-Injections und grundsätzlich ungeeignet für sicherheitskritische Aufgaben.

Erstaunlicherweise existieren bislang weder eine etablierte Definition noch ein Benchmark, um dieses Problem systematisch zu quantifizieren. In dieser Arbeit schließen wir diese Lücke, indem wir ein formales Maß für die Trennung von Anweisungen und Daten einführen sowie eine empirische Variante, die sich anhand der Modell-Ausgaben berechnen lässt.

Zudem präsentieren wir einen neuen Datensatz namens SEP, mit dem sich dieses Maß für reale Modelle abschätzen lässt. Unsere Ergebnisse über verschiedene LLMs hinweg zeigen deutlich, dass das Problem real ist: Keines der Modelle erreicht eine hohe Trennung zwischen Anweisung und Daten, und gängige Gegenmaßnahmen wie Prompt-Engineering oder Fine-Tuning können entweder die Trennung nicht wesentlich verbessern oder führen zu einem Verlust der Modellnützlichkeit.

Der Quellcode und der SEP-Datensatz sind öffentlich verfügbar unter: https://github.com/egozverev/Should-It-Be-Executed-Or-Processed

In unserer Forschungsarbeit untersuchen wir, wie CLIP-Modelle (Contrastive Language–Image Pre-training) Trainingsdaten memorieren, und schlagen gezielte Strategien vor, um diese Memorierung zu verringern. CLIP ist bekannt für seine Fähigkeit, visuelle und textuelle Repräsentationen effektiv zu verknüpfen, und zeigt starke Leistungen bei Aufgaben wie der Bildsuche oder Zero-Shot-Klassifikation. Bislang war jedoch unklar, in welchem Ausmaß und auf welche Weise CLIP-Modelle Trainingsdaten speichern.

Um dies systematisch zu erfassen, haben wir eine formale Metrik namens CLIPMem entwickelt, mit der wir die Memorierung innerhalb von CLIP-Modellen quantifizieren können. Unsere Analysen zeigen, dass das Memorierungsverhalten von CLIP zwischen dem überwachtem und dem selbstüberwachtem Lernparadigma liegt. Besonders auffällig ist, dass „falsch beschriftete“ Beispiele – also Bild-Text-Paare mit inkorrekter Zuordnung – die stärkste Memorierung hervorrufen. Darüber hinaus konnten wir feststellen, dass der Text-Encoder einen deutlich größeren Beitrag zur Memorierung leistet als der Bild-Encoder. Daraus leiten wir ab, dass Maßnahmen zur Reduktion der Memorierung vor allem auf den Textanteil des Modells abzielen sollten.

Auf Basis dieser Erkenntnisse haben wir mehrere Strategien zur Reduzierung von Memorierung entwickelt. Überraschenderweise zeigen unsere Experimente, dass diese Methoden nicht nur die Memorierung deutlich verringern, sondern gleichzeitig auch die Leistungsfähigkeit des Modells steigern. Damit hinterfragen wir die weit verbreitete Annahme, dass ein Abbau von Memorierung zwangsläufig mit einer Einbuße an Modellqualität einhergeht.

Mit dieser Arbeit leisten wir einen Beitrag zu einem tiefergehenden Verständnis der inneren Funktionsweise von CLIP-Modellen. Gleichzeitig bieten wir praktische Ansätze zur besseren Kontrolle des Spannungsfelds zwischen Memorierung und Generalisierung, was langfristig die Entwicklung robuster und vertrauenswürdiger multimodaler KI-Systeme unterstützt.

Diese Forschungsarbeit beschäftigt sich mit dem grundlegenden Ziel, Privatsphäre und Modellleistung im Federated Learning in Einklang zu bringen. In diesem Lernparadigma trainieren viele Nutzer:innen gemeinsam ein Modell, ohne ihre privaten Daten preiszugeben. Um die Privatsphäre zusätzlich zu schützen, wird häufig Differential Privacy (DP) eingesetzt, wobei gezielt Rauschen zu den Beiträgen der Teilnehmenden hinzugefügt wird. Dieser Schutzmechanismus kann jedoch die Genauigkeit des Modells beeinträchtigen. Bisher wurde der Datenschutz meist durch eine gleichmäßige Verteilung des Privacy-Budgets über alle Trainingsrunden umgesetzt – unabhängig davon, in welcher Phase des Lernprozesses sich das Modell befindet.

Wir schlagen ein neues Framework vor, bei dem das Privacy-Budget nicht gleichmäßig, sondern dynamisch über die Zeit verteilt wird. In den frühen Trainingsrunden, in denen das Modell eher allgemeine Muster (grobe Merkmale) lernt, wird nur ein kleiner Teil des Privacy-Budgets verbraucht. In späteren Runden, in denen feinere Details erlernt werden, wird mehr Budget eingesetzt. Dieses Prinzip heißt "Spend-as-you-go", wobei die Budgetverteilung individuell an die Datenschutzpräferenzen der einzelnen Nutzer:innen angepasst wird – ohne dabei von deren konkreten Daten abhängig zu sein. Dadurch wird ein mögliches Privacy Leakage vermieden.

Die Studie liefert sowohl theoretische als auch empirische Belege für die Wirksamkeit des Ansatzes. Die Theorie zeigt, dass insbesondere Nutzer:innen mit strengeren Datenschutzvorgaben von der ungleichmäßigen Budgetverwendung profitieren. Experimente auf verschiedenen Benchmark-Datensätzen (z. B. MNIST, CIFAR10) bestätigen, dass dieser Ansatz die Modellgenauigkeit gegenüber bisherigen Verfahren verbessert – ohne die Datenschutzgarantien zu verletzen.

Diese Arbeit leistet einen wichtigen Beitrag zur Entwicklung leistungsfähigerer und flexiblerer KI-Systeme mit Datenschutzgarantie. Sie ermöglicht bessere Modellergebnisse bei gleichzeitigem Schutz sensibler Nutzerdaten – ein entscheidender Fortschritt für den Einsatz von Federated Learning in datensensitiven Bereichen wie Gesundheitswesen, Finanzwesen und mobilen Anwendungen.

Document Visual Question Answering (DocVQA) hat ein neues Paradigma für die umfassende, Ende-zu-Ende-Verarbeitung von Dokumenten eingeführt und sich rasch als einer der Standard-Benchmarks für multimodale große Sprachmodelle (LLMs) etabliert. Die Automatisierung von Dokumentverarbeitungs-Workflows mithilfe von DocVQA-Modellen bietet erhebliches Potenzial für zahlreiche Wirtschaftsbereiche.

Allerdings enthalten Dokumente häufig äußerst sensible Informationen, was erhebliche Datenschutzbedenken im Zusammenhang mit dem Training solcher DocVQA-Modelle aufwirft. Eine besonders kritische Schwachstelle betrifft sogenannte Membership Inference Attacks (MIA), bei denen ein Angreifer herausfinden kann, ob ein bestimmter Datensatz Teil des Trainingsmaterials eines Modells war.

In dieser Arbeit stellen wir zwei neuartige Membership-Inference-Angriffe vor, die speziell auf DocVQA-Modelle zugeschnitten sind. Diese richten sich an zwei unterschiedliche Bedrohungsszenarien:

  • White-Box-Szenario: Der Angreifer hat vollständigen Zugriff auf die Modellarchitektur und Parameter.
  • Black-Box-Szenario: Der Angreifer kann lediglich die Ausgaben des Modells beobachten.

Bemerkenswert ist, dass unsere Angriffe davon ausgehen, dass der Angreifer keinen Zugriff auf zusätzliche Hilfsdatensätze hat – ein realistisches, aber besonders herausforderndes Szenario.

Unsere unüberwachten Methoden übertreffen bestehende, führende Membership-Inference-Angriffe hinsichtlich Effektivität über verschiedene DocVQA-Modelle und -Datensätze hinweg. Damit zeigen wir nicht nur die Wirksamkeit unserer Ansätze, sondern unterstreichen auch die datenschutzbezogenen Risiken, die mit dem Einsatz von DocVQA-Modellen verbunden sind.

Diese Arbeit befasst sich erneut mit dem Phänomen des robusten Overfittings im Rahmen des "adversarial trainings". Dabei beobachten wir, dass Modelle mit besserer robuster Generalisierungsleistung bei der Vorhersage von adversarial generierten Trainingseingaben weniger sicher sind. Daraus schließen wir, dass eine Überkonfidenz bei der Vorhersage adversarieller Beispiele eine potenzielle Ursache für robustes Overfitting darstellt.

Wir stellen daher die Hypothese auf, dass die Erzeugung von weniger sicheren adversariellen Beispielen die robuste Generalisierung verbessert, und schlagen eine formale Definition von adversarial certainty vor, die die Varianz der vom Modell prognostizierten Logits für adversarielle Beispiele erfasst.

Unsere theoretische Analyse synthetischer Verteilungen beschreibt den Zusammenhang zwischen adversarialer Sicherheit und robuster Generalisierung. Aufbauend auf diesem Konzept entwickeln wir eine allgemeine Methode, um Modelle zu finden, die adversarielle Eingaben mit geringerer Sicherheit während des Trainings generieren können – und gleichzeitig die Fähigkeit bewahren, adversarielle Beispiele zu unterscheiden.

Umfassende Experimente auf Bilddaten-Benchmarks zeigen, dass unsere Methode Modelle mit konsequent verbesserter Robustheit erzeugt und robustes Overfitting wirksam reduziert. Dies unterstreicht die Bedeutung der Erzeugung weniger sicherer adversarieller Beispiele für die robuste Generalisierung.

Unsere Implementierungen sind als Open-Source-Code unter folgender URL verfügbar: https://github.com/TrustMLRG/AdvCertainty

Diese Forschungsarbeit untersucht, wie sich die Leistungsfähigkeit von Graph-Neuronalen Netzwerken (GNNs) verbessern lässt – das sind Modelle des maschinellen Lernens, die speziell für graphstrukturierte Daten entwickelt wurden. Sie kommen häufig bei Aufgaben wie der Wirkstoffforschung oder der Analyse sozialer Netzwerke zum Einsatz. Ein bekanntes Problem von GNNs besteht darin, dass sie an Wirksamkeit verlieren können, wenn die Struktur des zugrunde liegenden Graphen ungünstig ist. Entweder können Knoten Informationen nicht effektiv austauschen (dieses Phänomen nennt man Over-Squashing), oder unterschiedliche Knoten ähneln sich zu stark (Over-Smoothing).

Traditionell wurde versucht, dieses Problem zu lösen, indem man die Graphstruktur so verändert, dass der Informationsfluss erleichtert wird – meist durch die Vergrößerung einer mathematischen Eigenschaft namens Spektrallücke (spectral gap).

Diese Arbeit zeigt jedoch, dass eine Vergrößerung der Spektrallücke nicht immer die beste Lösung ist. In bestimmten Fällen – insbesondere dann, wenn die Struktur des Graphen (z. B. dessen Community-Aufbau) gut mit den Kategorien übereinstimmt, die das Modell vorhersagen soll (wie Nutzertypen oder Produkttypen) – ist es vorteilhafter, die Spektrallücke zu verkleinern, um diese Community-Strukturen zu erhalten. Dies kann die Vorhersagegenauigkeit des Modells erhöhen.

Dementsprechend schlagen die Autor*innen drei neue Methoden zur Anpassung von Graphstrukturen vor:

ComMa: verstärkt oder schwächt Community-Strukturen je nach Aufgabenstellung;

FeaSt: verbindet Knoten mit ähnlichen Merkmalen, um den Austausch relevanter Informationen zu fördern;

ComFy: eine hybride Methode, die sowohl Community-Struktur als auch Merkmalähnlichkeit berücksichtigt.

Experimente mit künstlich erzeugten und realen Graphen zeigen, dass diese neuen Ansätze bestehende Verfahren übertreffen können – insbesondere dann, wenn die Graphstruktur gut zur jeweiligen Aufgabe passt.

Diese Forschung leistet einen gesellschaftlichen Beitrag, indem sie die Genauigkeit und Verlässlichkeit von GNNs in Anwendungen wie der Analyse sozialer Netzwerke, Empfehlungssystemen oder biologischen Netzwerken verbessert. Dadurch lassen sich auf der Basis komplexer Beziehungsdaten fundiertere Einsichten und bessere Entscheidungen erzielen.

Diese Forschungsarbeit beschäftigt sich mit der Effizienzsteigerung tiefer neuronaler Netzwerke, indem die Anzahl ihrer Parameter reduziert wird – ein Verfahren, das als Sparsifizierung bekannt ist. Im Fokus steht dabei eine Methode namens kontinuierliche Sparsifizierung, bei der Netzwerke so trainiert werden, dass sie nach und nach unnötige Teile deaktivieren. Bisher beruhte Sparsifizierung meist auf expliziten Regeln (wie L1-Regularisierung), um überflüssige Parameter zu bestrafen. Wir argumentieren jedoch, dass bessere Ergebnisse durch eine implizite Form der Regularisierung erzielt werden können – und zwar dann, wenn sowohl die Gewichtungen als auch ihre zugehörigen Aktivitätsniveaus (sogenannte Masken) gemeinsam gelernt werden.

Wir liefern eine theoretische Erklärung dafür, wie diese implizite Regularisierung funktioniert. Zu Beginn des Trainings verhält sie sich wie eine sanfte L2-Strafe, was dem Netzwerk erlaubt, flexibel zu lernen und verschiedene Konfigurationen zu erkunden. Im späteren Trainingsverlauf wandelt sich diese Wirkung in eine stärkere L1-Strafe, die gezielt zur Ausdünnung und Sparsität anregt. Auf Basis dieser Erkenntnisse entwickeln sie einen neuen Algorithmus namens PILoT, der diesen Übergang aktiv steuert und so einen gleichmäßigeren und effektiveren Sparsifizierungsprozess ermöglicht.

Experimentelle Ergebnisse stützen die Theorie: PILoT übertrifft andere gängige Methoden darin, die Modellgröße zu reduzieren, ohne die Leistung zu beeinträchtigen – insbesondere in Szenarien, in denen eine sehr hohe Sparsität gefordert ist. Zudem lässt sich PILoT gut mit bestehenden Sparsifizierungsansätzen kombinieren.

Diese Forschung leistet einen wichtigen Beitrag zur Ressourceneffizienz großer neuronaler Netzwerke. Sie ermöglicht es, Modelle schneller und speicherschonender zu betreiben, ohne dabei an Genauigkeit zu verlieren – ein bedeutender Schritt in Richtung nachhaltiger und breiter zugänglicher Künstlicher Intelligenz, insbesondere angesichts der wachsenden Verbreitung von ML-Anwendungen im Alltag und auf mobilen Geräten.

Diese Forschungsarbeit beschäftigt sich mit der effizienten Optimierung einer breiten Klasse mathematischer Funktionen, den sogenannten (L₀, L₁)-smooth functions, die besonders relevant für moderne maschinelle Lernmodelle sind. Herkömmliche Optimierungsverfahren basieren oft auf der Annahme einer stark eingeschränkten Smootheness der Zielfunktion – eine Voraussetzung, die für komplexe Modelle wie tiefe neuronale Netzwerke häufig nicht zutrifft. Die (L₀, L₁)-Smootheness stellt hingegen eine flexiblere und realistischere Annahme dar, die den Gegebenheiten realer Szenarien besser entspricht.

In dieser Arbeit entwickeln wir neue mathematische Werkzeuge sowie gradientenbasierte Algorithmen, die unter dieser verallgemeinerten Glattheitsbedingung effektiv funktionieren. Wir zeigen, dass sich durch eine sorgfältige Wahl der Schrittweite – abhängig vom aktuellen Zustand des Modells – eine schnellere und verlässlichere Konvergenz zur optimalen Lösung erreichen lässt. Besonders wichtig ist, dass wir nachweisen konnten, dass gängige Methoden wie die normalisierte Gradientenmethode oder die Polyak-Stepsizes auch dann wirksam bleiben, wenn die exakten Smotheness-Parameter unbekannt sind. Darüber hinaus stellen wir ein verbessertes, beschleunigtes Verfahren vor, das bestehenden Ansätzen sowohl theoretisch als auch praktisch überlegen ist.

Die umfassende theoretische Analyse wird durch Experimente untermauert, die die Vorteile der vorgeschlagenen Methoden bestätigen. Zu diesen zählen eine geringere rechnerische Komplexität und eine höhere Anpassungsfähigkeit an unterschiedliche Problemstellungen – insbesondere bei großen Modellen oder bei Anforderungen an hohe Präzision.

Diese Arbeit leistet einen bedeutenden Beitrag im Bereich der Optimierung, indem sie effizientere und flexiblere Techniken bereitstellt, die grundlegend für das Training von Machine-Learning-Modellen sind. Die vorgestellten Fortschritte können zu schnelleren, energieeffizienteren Systemen führen – etwa in Anwendungen der natürlichen Sprachverarbeitung oder der wissenschaftlichen Datenverarbeitung – und kommen so sowohl Entwicklerinnen als auch Endnutzerinnen zugute, indem sie Trainingszeiten und Rechenkosten verringern.

Diese Forschungsarbeit untersucht, wie moderne Text-zu-Bild-Diffusionsmodelle Textinhalte innerhalb generierter Bilder erzeugen. Wir stellen eine neuartige Methode vor, mit der sich Text in solchen Bildern gezielt bearbeiten lässt – und das, ohne die übrigen visuellen Inhalte zu verändern. Mithilfe einer Technik namens Activation Patching zeigen sie, dass weniger als 1 % der Modellparameter – konkret in den Attention-Schichten – für die Texterzeugung verantwortlich sind. Dieses Ergebnis ist konsistent über verschiedene Diffusionsmodelle hinweg, darunter sowohl U-Net- als auch transformerbasierte Architekturen.

Aufbauend auf dieser Erkenntnis entwickeln wir eine Methode zur gezielten Lokalisierung der für den Text verantwortlichen Schichten. Daraus ergeben sich mehrere praktische Vorteile:

Verbesserte Texterzeugung: Durch selektives Feintuning dieser lokalisierten Schichten mit der Methode LoRA gelingt es, die Textdarstellung in generierten Bildern deutlich zu verbessern – ohne Qualität oder Vielfalt der übrigen Bildinhalte zu beeinträchtigen.

Präzise Textbearbeitung: Einzelne Wörter im Bildtext können gezielt geändert werden, während alle anderen visuellen Elemente vollständig erhalten bleiben.

Sicherheit durch Textunterdrückung: Die Methode kann auch eingesetzt werden, um schädliche oder toxische Textinhalte in Bildern zu unterdrücken – ohne zusätzlichen Rechenaufwand. Das bietet eine vielversprechende Möglichkeit, die Sicherheit von KI-generierten Inhalten zu erhöhen.

Im Vergleich zu bestehenden Bearbeitungsverfahren zeigt sich, dass die vorgeschlagene Methode sowohl genauer als auch effizienter ist. Zudem trägt sie zur besseren Interpretierbarkeit und Steuerbarkeit von Diffusionsmodellen bei.

Diese Forschung liefert wichtige Beiträge für die Entwicklung kontrollierbarer, effizienter und sicherer Text-zu-Bild-Systeme. Potenzielle Anwendungen liegen u. a. im Bereich der Inhaltsmoderation – insbesondere in Szenarien, in denen Textqualität und Sicherheit in Bildern eine zentrale Rolle spielen.

Diese Forschungsarbeit widmet sich einer zentralen Herausforderung im dezentralen maschinellen Lernen: Wie lässt sich eine schnelle und stabile Trainingsleistung aufrechterhalten, wenn viele Recheneinheiten (Nodes) beteiligt sind? In dezentralen Systemen kommuniziert jeder Knoten in der Regel nur mit wenigen Nachbarn, um Kommunikationskosten zu minimieren. Doch je mehr Knoten hinzukommen, desto schwerfälliger wird das Training, da die Synchronisation zwischen den Knoten zunehmend schwieriger wird.

Um dieses Problem zu lösen, schlagen wir einen neuen Ansatz namens TELEPORTATION vor. Anstatt in jedem Trainingsschritt alle verfügbaren Knoten gleichzeitig zu aktivieren, wählt TELEPORTATION zufällig nur eine Teilmenge aktiver Knoten aus. Diese aktiven Knoten holen sich die Parameter von zuvor aktiven Knoten, aktualisieren sie mithilfe von Stochastic Gradient Descent (SGD) und tauschen die Ergebnisse anschließend innerhalb einer kleinen, temporären Kommunikationsgruppe aus. Durch diesen Fokus auf kleine Gruppen wird der typische Geschwindigkeitsverlust vermieden, der bei klassischen dezentralen Verfahren bei steigender Systemgröße auftritt.

Zusätzlich wird eine Methode vorgestellt, die automatisch die optimale Anzahl aktiver Knoten für ein gegebenes System bestimmt. Dies reduziert den Aufwand für manuelle Abstimmung und ermöglicht eine effizientere Nutzung der Ressourcen. Theoretische Analysen und Experimente belegen, dass TELEPORTATION nicht nur den üblichen Leistungsabfall bei wachsender Knotenzahl verhindert, sondern auch die Konvergenz beschleunigt und die Genauigkeit verbessert – insbesondere in Szenarien mit ungleichmäßig verteilten Daten über die Knoten hinweg.

Diese Forschung leistet einen wichtigen Beitrag zur Entwicklung skalierbarer und effizienter verteilter Lernsysteme. Solche Systeme sind besonders nützlich in Umgebungen, in denen Daten über viele Geräte oder Standorte verteilt sind – etwa im Edge Computing, im Gesundheitswesen oder in der kooperativen wissenschaftlichen Forschung. TELEPORTATION hilft dabei, Energieverbrauch und Kommunikationsaufwand zu senken, ohne dabei an Leistungsfähigkeit einzubüßen.

Diese Forschungsarbeit untersucht, wie die Effizienz von dezentralem maschinellen Lernen verbessert werden kann, wenn Geräte nur begrenzt und komprimiert miteinander kommunizieren können. In realen verteilten Systemen – etwa in Mobilfunknetzen oder beim Edge Computing – ist die Kommunikation zwischen Knoten oft langsam und teuer. Um dem entgegenzuwirken, werden in vielen Algorithmen die auszutauschenden Daten komprimiert. Dies kann jedoch die Trainingsqualität beeinträchtigen und zu Divergenzen führen, besonders wenn die Daten ungleichmäßig verteilt sind oder nur kleine Trainingsbatches zur Verfügung stehen.

Wir stellen einen neuen Algorithmus namens MoTEF (Momentum Tracking with Error Feedback) vor, der genau für diese Herausforderungen entwickelt wurde. Im Gegensatz zu früheren Ansätzen funktioniert MoTEF auch dann zuverlässig, wenn sich die Datenverteilungen zwischen den Geräten stark unterscheiden oder nur kleine Batches verwendet werden. Der Algorithmus verzichtet auf unrealistische Annahmen und erreicht ein sogenanntes lineares Speed-up – das bedeutet: Je mehr Geräte beteiligt sind, desto schneller verläuft das Training, was ein zentrales Ziel in der dezentralen Optimierung ist.

MoTEF kombiniert zwei zentrale Strategien:

Momentum-Tracking, um Rauschen in den Gradienten zu reduzieren, und

Fehlerrückführung (Error Feedback) mit komprimierten Gradientenunterschieden, um die Effekte heterogener Datenverteilungen auszugleichen.

Zusätzlich wird eine verbesserte Variante namens MoTEF-VR vorgestellt, die durch Reduktion der Varianz in den Gradientenabschätzungen die Leistung weiter steigert – ein häufiges Problem in der stochastischen Optimierung.

Mathematische Analysen und empirische Experimente zeigen, dass MoTEF bestehenden Verfahren sowohl in Geschwindigkeit als auch Genauigkeit überlegen ist. Der Algorithmus zeigt sich robust gegenüber unterschiedlichen Netzwerktopologien und Datenverteilungen.

Diese Arbeit leistet einen wichtigen Beitrag zur Entwicklung skalierbarer, ressourcenschonender Machine-Learning-Systeme. Sie kann insbesondere dazu beitragen, Technologien wie Federated Learning und dezentrale KI in der Praxis anwendbarer zu machen – vor allem in Szenarien mit eingeschränkter Kommunikationskapazität, etwa auf mobilen Geräten oder in datenschutzsensiblen Anwendungen.

Mit dem Fortschritt großer Sprachmodelle (Large Language Models, LLMs) und der zunehmenden Nachfrage nach personalisierten Modellen werden parameter-effiziente Feinabstimmungsmethoden (wie etwa LoRA) aufgrund ihrer Effizienz bei der Reduzierung von Rechenkosten immer wichtiger. Allerdings haben jüngste Studien ernstzunehmende Bedenken geäußert, dass die LoRA-Feinabstimmung die sicherheitsbezogene Ausrichtung (Safety Alignment) von LLMs beeinträchtigen könnte, was erhebliche Risiken für die Modellbesitzer mit sich bringt.

In dieser Arbeit untersuchen wir zunächst den zugrunde liegenden Mechanismus, indem wir die Veränderungen sicherheitsrelevanter Merkmale vor und nach der Feinabstimmung analysieren. Anschließend schlagen wir ein festes Sicherheitsmodul vor, das auf Sicherheitsdaten basiert, sowie eine aufgabenspezifische Initialisierung für die trainierbaren Parameter in Low-Rank-Anpassungen. Dieses Verfahren nennen wir Safety-alignment preserved Low-Rank Adaptation (SaLoRA).

Im Gegensatz zu bisherigen LoRA-Methoden und deren Varianten ermöglicht SaLoRA gezielte Anpassungen von LLMs, ohne deren ursprüngliche sicherheitsbezogene Ausrichtung zu beeinträchtigen. Unsere Experimente zeigen, dass SaLoRA in verschiedenen Feinabstimmungsaufgaben und über diverse Bewertungsmetriken hinweg Ansätze auf Adapterbasis deutlich übertrifft.

Diese Forschung stellt σ-Zero vor – eine neue Methode zur Erzeugung von ℓ₀-Norm-basierten adversariellen Beispielen. Dabei handelt es sich um gezielt manipulierte Eingaben, die darauf ausgelegt sind, maschinelle Lernmodelle zu täuschen, indem möglichst wenige Merkmale verändert werden. Die meisten bestehenden Angriffe basieren auf anderen Normen wie ℓ₂ oder ℓ∞, da ℓ₀-Angriffe – also solche mit spärlichen Änderungen – schwer zu berechnen sind, da sie nicht konvex und nicht differenzierbar sind.

Wir lösen dieses Problem, indem wir eine differenzierbare Approximation der ℓ₀-Norm vorschlagen, die den Einsatz gradientenbasierter Optimierungsmethoden ermöglicht. Zusätzlich entwickeln wir einen adaptiven Projektionsoperator, der während der Optimierung die Sparsamkeit der Veränderung dynamisch anpasst. So bleibt die Anzahl der Änderungen klein, während sie weiterhin wirksam Fehlklassifikationen hervorrufen.

In umfangreichen Experimenten auf gängigen Bilddatensätzen wie MNIST, CIFAR-10 und ImageNet übertrifft σ-Zero durchgängig bestehende Methoden für spärliche Angriffe – hinsichtlich Erfolgsrate, minimaler Störgröße und Rechenaufwand. Dabei kommt die Methode ohne aufwändige Hyperparameter-Abstimmung oder vorab generierte adversarielle Beispiele aus. Sie skaliert zudem gut auf große Datensätze und Modelle – eine Herausforderung, an der andere ℓ₀-Angriffe häufig scheitern.

Diese Arbeit leistet einen bedeutenden Beitrag zur Bewertung der adversariellen Robustheit von Modellen. Sie bietet eine zuverlässige und effiziente Methode, um Schwachstellen in tiefen neuronalen Netzen zu identifizieren. Das Verständnis und die Messung der Modellreaktion auf minimale Veränderungen ist entscheidend, insbesondere in sicherheitskritischen Bereichen wie medizinischer Diagnostik, autonomen Fahrsystemen oder biometrischer Authentifizierung.