E-mail senden E-Mail Adresse kopieren

17 CISPA paper auf der NEURIPS 2025

Die Conference on Neural Information Processing Systems (NeurIPS) ist eine der renommiertesten und einflussreichsten Konferenzen im Bereich der künstlichen Intelligenz (AI), des maschinellen Lernens (ML) und der Datenwissenschaft.

Die Forschenden untersuchten, wie sich große Sprachmodelle verhalten, wenn zwei unterschiedliche Aufgaben Wort für Wort miteinander verflochten werden, anstatt nacheinander gestellt zu werden. Sie fanden heraus, dass die Modelle in der Regel zumindest eine der Aufgaben weiterhin lösen können – ein Hinweis darauf, dass sie mit solchen gemischten Eingaben besser zurechtkommen als erwartet.

Wichtiger noch: Die Studie zeigt eine Schwachstelle in den Sicherheitsmechanismen auf. Wenn eine schädliche Anfrage in einem verflochtenen Prompt versteckt ist, wird sie von Moderationssystemen seltener erkannt. Dadurch kann schädlicher Inhalt leichter an Schutzmechanismen vorbeischlüpfen.

Aufbauend auf dieser Erkenntnis entwickelten die Forschenden JAIL-CON, eine automatisierte Methode, die wiederholt eine schädliche Frage mit harmlosen kombiniert, bis das Modell eine schädliche Antwort erzeugt. Bei mehreren bekannten Sprachmodellen erzielte JAIL-CON höhere Erfolgschancen bei Jailbreaks als bestehende Methoden und erzeugte Ausgaben, die für Sicherheitsfilter schwerer zu erkennen waren.

Aus Sicht der Forschenden zeigen diese Ergebnisse, dass heutige Sicherheitsmechanismen sequenzielle Eingaben voraussetzen und daher eine relevante Verwundbarkeit übersehen. Diese Lücke zu identifizieren ist wichtig, damit zukünftige Moderationssysteme besser mit nicht standardisierten oder absichtlich manipulierten Prompts umgehen können.

Für die Gesellschaft macht die Forschung ein reales Risiko sichtbar, dient aber letztlich der Stärkung der KI-Sicherheit: Durch das frühzeitige Aufdecken dieses blinden Flecks ermöglicht sie es Entwicklerinnen und politischen Entscheidungsträgerinnen, robustere Schutzmechanismen gegen Missbrauch zu entwerfen.

Die Forschenden untersuchen, ob gängige Datenaugmentierungs­techniken – die in der Regel im maschinellen Lernen eingesetzt werden, um die Leistung bei normalen Vorhersageaufgaben zu verbessern – auch dann helfen können, wenn das Ziel die kausale Inferenz ist. Bei kausalen Fragestellungen möchten wir verstehen, wie sich eine Veränderung einer Variable (die „Behandlung“) auf eine andere (das „Ergebnis“) auswirkt. Das ist oft schwierig, weil beide durch verborgene Faktoren miteinander verknüpft sein können, was zu verzerrten Schätzungen führt.

Die zentrale Idee des Papiers ist, dass bestimmte Datenaugmentierungs­operationen so interpretiert werden können, als handele es sich um „weiche Interventionen“ auf die Behandlungsvariable – vorausgesetzt, diese Transformationen verändern den tatsächlichen Wirkmechanismus des Ergebnisses nicht. Wenn diese Bedingung erfüllt ist, kann augmentierte Daten so wirken, als ob die Behandlung experimentell variiert worden wäre, und dadurch Verzerrungen reduzieren, die durch versteckte Störfaktoren entstehen.

Darauf aufbauend führen die Autor*innen das Konzept „IV-ähnlicher“ Variablen ein. Diese ähneln Instrumentvariablen – also Hilfsvariablen, die traditionell eine unverzerrte kausale Schätzung ermöglichen –, müssen jedoch nicht alle strengen Bedingungen erfüllen, die echte Instrumente erfordern. Durch die Kombination von Datenaugmentierung mit einer regularisierten Form der Instrumentvariablen­regression zeigen die Autor*innen, dass sich Störfaktoren weiter ausschalten lassen und Vorhersagen selbst dann zuverlässiger werden, wenn keine gültigen Instrumente verfügbar sind.

Das Papier analysiert diese Ideen theoretisch in einfachen linearen Modellen und demonstriert sie in Simulationen und realen Datensätzen. Über die Experimente hinweg schadet ergebnisinvariante Datenaugmentierung der kausalen Schätzung meist nicht und verbessert sie häufig sogar. In Kombination mit der vorgeschlagenen IV-ähnlichen Regression kann sich die Leistung weiter steigern – insbesondere in Situationen, in denen die Augmentierung zufällig genau jene Datenbereiche trifft, die am stärksten von Störfaktoren betroffen sind.

Aus gesellschaftlicher Perspektive bietet diese Forschung einen vorsichtigen, aber bedeutsamen Beitrag: Sie zeigt einen Weg auf, kausale Schlussfolgerungen in Bereichen robuster zu machen, in denen kontrollierte Experimente oder gültige Instrumentvariablen schwer zu erhalten sind. Zwar ersetzt sie weder Domänenwissen noch sorgfältige Annahmen, doch liefert sie ein praktisches Werkzeug, das die Entscheidungsfindung in Bereichen wie Gesundheitswesen, Wirtschaft und wissenschaftlicher Modellierung verbessern kann.

Die Forschenden stellen eine neue Wasserzeichentechnik namens BitMark vor, die speziell für moderne autoregressive Bildgenerierungsmodelle entwickelt wurde. Ihr Ziel ist es, Informationen in erzeugte Bilder einzubetten, die schwer zu entfernen, leicht zu erkennen und in ihrer Bildqualität praktisch nicht beeinträchtigt sind. Bestehende Verfahren funktionieren hauptsächlich für Sprachmodelle oder Diffusionsmodelle, lassen sich jedoch nicht zuverlässig auf autoregressive Bildgeneratoren übertragen. BitMark soll diese Lücke schließen.

BitMark bettet ein Wasserzeichen ein, indem es während der Bildgenerierung die Bit-Vorhersagen des Modells leicht beeinflusst. Die Methode verwendet zwei Listen von Bitmustern – eine „grüne Liste“ und eine „rote Liste“. Während der Generierung wird das Modell sanft dazu angeregt, häufiger Muster aus der grünen Liste auszuwählen. Da diese Muster an vielen kleinen Stellen im gesamten Bild auftreten, verteilt sich das Wasserzeichen über das ganze Bild, was eine Entfernung erschwert. Die Erkennung erfolgt statistisch, indem gezählt wird, wie oft grüne Muster vorkommen, und dies mit der erwarteten Häufigkeit in einem nicht markierten Bild verglichen wird. Die Autoren zeigen, dass dieser Test selbst unter verschiedenen Bildmanipulationen zuverlässig bleibt.

Die Experimente zeigen, dass BitMark gegenüber vielen gängigen Angriffen robust ist, etwa Rauschen, Kompression, Zuschneiden und fortgeschritteneren Versuchen, den Bildinhalt zu verändern. Die Autoren führen zudem einen neuen, stärkeren Angriff ein – den Bit-Flipper – und zeigen, dass das Entfernen des Wasserzeichens derart starke Eingriffe erfordert, dass die Bildqualität sichtbar leidet. Außerdem demonstrieren sie eine Art „Radioaktivität“: Modelle, die auf markierten Bildern trainiert werden, übernehmen die Wasserzeichenmuster und erzeugen Ausgaben, in denen das Wasserzeichen weiterhin nachweisbar ist.

Aus gesellschaftlicher Perspektive trägt diese Forschung zu vertrauenswürdigeren Bildgenerierungssystemen bei. Zuverlässige Wasserzeichen können Transparenz darüber fördern, ob ein Bild von einem KI-Modell erzeugt wurde, und helfen, Bedenken bezüglich Fehlinformationen oder unklarer Herkunft von Inhalten zu adressieren. Die Arbeit stellt einen technischen Fortschritt dar, ohne zu behaupten, dass Wasserzeichen allein diese umfassenderen Herausforderungen vollständig lösen können.

Die Forschenden befassen sich mit einem häufigen Problem in der Datenanalyse: Reale Datensätze enthalten oft versteckte Untergruppen, die unterschiedlichen Ursache-Wirkungs-Beziehungen folgen. Wenn diese Unterschiede ignoriert werden, können Schlussfolgerungen darüber, was was verursacht, leicht irreführend sein. Um dem entgegenzuwirken, schlagen die Autor*innen einen neuen Rahmen namens "causal mixture models" vor. Dieser geht davon aus, dass jede Variable je nach unbeobachteter Gruppenzugehörigkeit von einem von mehreren zugrunde liegenden Mechanismen erzeugt werden kann.

In diesem Rahmen hängt jede Variable weiterhin von ihren direkten Ursachen ab, aber die genaue Form dieser Abhängigkeit kann sich zwischen den verborgenen Gruppen unterscheiden. Die Autor*innen entwickeln Methoden, um nicht nur die kausalen Beziehungen zwischen Variablen zu erschließen, sondern auch die versteckten Gruppen und deren jeweiligen Einfluss auf die kausalen Mechanismen. Ihr Ansatz verbindet Mischmodellierung mit etablierten Verfahren der kausalen Strukturerkennung und nutzt statistische Kriterien, um zu entscheiden, wie viele verborgene Gruppen wahrscheinlich existieren und welche Variablen sie beeinflussen.

Durch mathematische Analysen zeigen die Forschenden, dass ihre Methode unter angemessenen Annahmen die korrekte kausale Struktur auch dann rekonstruieren kann, wenn verborgene Gruppenunterschiede vorliegen. Sie stellen zudem einen Algorithmus bereit, um diese gemeinsame Entdeckung in der Praxis durchzuführen. In umfangreichen Experimenten mit synthetischen Datensätzen, mit Daten, die Mischungen verschiedener experimenteller Bedingungen enthalten, sowie mit einem realen biologischen Datensatz identifiziert der Ansatz im Allgemeinen die verborgenen Untergruppen und rekonstruiert den zugrunde liegenden kausalen Graphen genauer als bestehende Methoden. Die Forschenden weisen jedoch auch auf Fälle hin, in denen Einschränkungen der Modellannahmen – etwa die Annahme linearer Zusammenhänge – die Fähigkeit der Methode begrenzen, die tatsächliche Gruppenstruktur zu erkennen.

Aus gesellschaftlicher Perspektive unterstützt diese Arbeit verlässlichere wissenschaftliche Analysen in Bereichen, in denen heterogene Populationen häufig sind, etwa in der Medizin, Biologie und den Sozialwissenschaften. Eine genauere Identifikation sowohl kausaler Beziehungen als auch versteckter Untergruppen kann helfen, falsche Schlussfolgerungen zu vermeiden und präzisere, evidenzbasierte Entscheidungen zu ermöglichen.

Die Forschenden untersuchen, ob sich bestimmte Verhaltensweisen großer Sprachmodelle auf einzelne Neuronen im Netzwerk zurückführen lassen und ob das gezielte Verändern dieser Neuronen das Modellverhalten zuverlässig beeinflussen kann. Ihr Ziel ist es, Modelle gezielter zu verstehen und herauszufinden, ob kleine, präzise Eingriffe breit angelegte und unvorhersehbare Methoden ersetzen können, die viele Modellteile gleichzeitig verändern.

Sie analysieren dies in einem kontrollierten Szenario, in dem das Modell bestimmte Phrasen vermeiden muss, die Rückschlüsse auf verwendete Trainingsdaten zulassen würden. Um dies sicher zu untersuchen, erstellen sie einen modifizierten Datensatz und nutzen eine automatisierte Methode, um „kritische Neuronen“ zu finden, die immer dann stark reagieren, wenn das Modell kurz davor ist, den unerwünschten Text zu erzeugen. Sobald solche Neuronen identifiziert sind, testen sie, ob das gezielte Anpassen ihrer Aktivität im richtigen Moment verhindert, dass das Modell die sensiblen Phrasen generiert.

Die Ergebnisse zeigen, dass sich diese Neuronen zuverlässig finden lassen – sogar in sehr großen Modellen. Noch wichtiger ist, dass das individuelle Reaktivieren oder Unterdrücken nur weniger Neuronen oft ausreicht, um das unerwünschte Verhalten zu verhindern, ohne andere Fähigkeiten spürbar zu beeinträchtigen. Dies deutet darauf hin, dass manche Modellverhaltensweisen – zumindest in eng definierten Aufgaben – stärker lokalisiert sind, als bisher angenommen. Die Forschenden vergleichen zudem Eingriffe auf Neuronenebene mit bestehenden Editierverfahren und stellen fest, dass ihr Ansatz gezielter ist und weniger Nebenwirkungen erzeugt. Gleichzeitig betonen sie, dass dies nicht bedeutet, dass sich alle komplexen Verhaltensweisen auf einzelne Neuronen reduzieren lassen oder dass ihre Methode die gesamte Bandbreite an Sicherheits- und Interpretierbarkeitsproblemen abdeckt.

Aus gesellschaftlicher Sicht stellt diese Arbeit einen Schritt in Richtung transparenterer und kontrollierbarer KI-Systeme dar. Zu verstehen, wo bestimmte Verhaltensweisen entstehen und wie sie minimalinvasiv angepasst werden können, kann dazu beitragen, sicherere und vorhersehbarere Modelle zu entwickeln. Gleichzeitig zeigt die Forschung die Grenzen solcher Techniken auf und unterstreicht die Notwendigkeit breiterer Ansätze für eine verantwortungsvolle Modellentwicklung.

Diese Arbeit untersucht, warum Graph-Neuronale Netze (GNNs) dazu neigen, Trainingsdaten zu memorieren, und unter welchen Bedingungen diese Memorierung stärker oder schwächer wird. Die Forschenden gehen das Thema systematisch an, indem sie einen Rahmen vorschlagen, der es ihnen ermöglicht, Memorierung über verschiedene Grapharten und Aufgaben hinweg zu analysieren. Der Schwerpunkt liegt darauf, die Mechanismen zu verstehen, die zu Overfitting führen, nicht darauf, ein neues Modell einzuführen.

Den Autorinnen und Autoren zufolge wird die Memorierung in GNNs von mehreren strukturellen Eigenschaften von Graphen beeinflusst. Ein wichtiger Faktor ist die Homophilie, also wie häufig verbundene Knoten dasselbe Label teilen. Bei hoher Homophilie können GNNs Labels leichter aus Nachbarschaften ableiten, was dazu beitragen kann, spezifische Trainingsmuster zu memorieren. Ein weiterer Faktor ist die Label-Informativität, die beschreibt, wie sehr das Wissen über das Label eines Nachbarknotens hilft, das Label eines Knotens vorherzusagen; höhere Informativität erhöht das Risiko der Memorierung. Zudem untersuchen sie die Kernel-Alignment-Eigenschaft, eine mathematische Maßzahl dafür, wie gut die Struktur des Graphen mit der idealen Struktur für die Lernaufgabe übereinstimmt. Schließlich identifizieren sie Inkonsistenzen zwischen Labeln im Merkmalsraum—Fälle, in denen sich Knoten aufgrund ihrer Merkmale ähnlich sehen, aber verschiedenen Klassen angehören—als Faktor für instabiles Lernen und Memorierung.

Die Forschenden untermauern ihre Aussagen, indem sie analysieren, wie diese Faktoren während des Trainings gängiger GNN-Architekturen, insbesondere von Graph Convolutional Networks, miteinander interagieren. Sie erörtern außerdem, wie Memorierung mit Datenschutzrisiken zusammenhängt, da Modelle, die einzelne Trainingsinstanzen memorieren, unbeabsichtigt sensible Informationen preisgeben können.

Insgesamt bietet die Arbeit ein klareres Verständnis dafür, wann und warum GNNs Daten memorieren, ohne einfache Lösungen vorzuschlagen. Der gesellschaftliche Beitrag liegt vor allem in einer verbesserten Transparenz über das Verhalten von GNNs. Diese Grundlage kann Entwicklerinnen und Entwicklern helfen, Modelle zu entwerfen, die besser generalisieren und weniger Informationen preisgeben—und damit letztlich zu einer sichereren und zuverlässigeren Nutzung graphbasierter Machine-Learning-Systeme beitragen.

 

Die Forschenden stellen eine Methode namens GASP vor, die darauf ausgelegt ist zu testen, wie leicht sich große Sprachmodelle dazu verleiten lassen, schädliche Inhalte zu erzeugen. Der Schwerpunkt liegt darauf, kurze Textzusätze – sogenannte „adversariale Suffixe“ – zu entwickeln, die, wenn sie an eine Nutzereingabe angehängt werden, ein Modell dazu bringen, seine eingebauten Sicherheitsregeln zu ignorieren. Anders als viele frühere Ansätze kommt GASP ohne Zugriff auf die inneren Mechanismen eines Modells aus und zielt darauf ab, die resultierenden Eingaben lesbar und natürlich klingend zu halten.

Um dies zu erreichen, trainieren die Forschenden ein kleineres Modell, das potenziell schädliche Suffixe erzeugt, und verfeinern diese anschließend im internen Einbettungsraum des Modells, in dem Text als kontinuierliche numerische Vektoren dargestellt wird. Dadurch können sie effizienter nach Suffixen suchen, die zuverlässig unsichere Antworten auslösen. Sie kombinieren dies mit einer statistischen Optimierungstechnik und einem zusätzlichen Trainingsschritt, bei dem das kleinere Modell anhand von Rückmeldungen aus realen Modellausgaben angepasst wird. Jeder Versuch wird mithilfe eines maßgeschneiderten Bewertungssystems beurteilt, das klar schädliche Antworten von harmlosen unterscheidet, einschließlich Grenzfällen, in denen Warnungen und unsichere Inhalte gemeinsam auftreten.

In ihren Experimenten gelingt es GASP, eine Vielzahl offener Modelle und sogar die fortschrittlichsten kommerziellen LLMs dazu zu bringen, schädliche Ausgaben zu erzeugen – oft mit weniger Anfragen und kohärenteren Prompts als frühere Angriffsmethoden. Außerdem stellen die Forschenden fest, dass viele gängige Schutzmechanismen weiterhin umgangen werden können. Die Methode ist besonders effektiv, wenn mehrere Versuche erlaubt sind, und erhält die Lesbarkeit besser als andere automatisierte Ansätze.

Aus Sicht der Forschenden besteht der Hauptbeitrag dieser Arbeit darin, eine effizientere und realitätsnähere Möglichkeit zu bieten, die Robustheit der Sicherheitsmechanismen von Sprachmodellen zu testen. Für die Gesellschaft liegt der Wert darin, Entwicklerinnen, Entwickler und Evaluierende dabei zu unterstützen, besser zu verstehen, wo aktuelle Schutzmaßnahmen versagen – was zur Entwicklung widerstandsfähigerer und vertrauenswürdigerer KI-Systeme beitragen kann.

Dieses Papier befasst sich damit, wie maschinelle Lernsysteme Unsicherheit besser darstellen und messen können – insbesondere in Situationen, in denen die verfügbaren Informationen unvollständig oder mehrdeutig sind. Die Forschenden konzentrieren sich auf „unklare“ bzw. unpräzise Wahrscheinlichkeiten, die Unsicherheit nicht als einzelne Zahl, sondern als Wertebereich beschreiben. Dieser Ansatz soll die Wissensgrenzen realistischer abbilden, die in vielen realen Anwendungen auftreten.

Die Forschenden entwickeln einen mathematischen Rahmen namens Integral Imprecise Probability Metrics, der es ermöglicht, solche unpräzisen Modelle auf systematische Weise zu vergleichen und zu analysieren. Dazu erweitern sie gängige Werkzeuge zum Vergleich von Wahrscheinlichkeitsverteilungen, indem sie eine Form des Integrals nutzen, die Mehrdeutigkeit besser wiedergeben kann. Sie zeigen, dass ihr Rahmen wünschenswerte Eigenschaften besitzt – etwa dass er sich in vielen Fällen wie ein echter Distanzbegriff verhält und bedeutungsvolle Unterschiede zwischen Unsicherheitsmodellen erfasst.

Darauf aufbauend führen die Forschenden ein neues Maß für epistemische Unsicherheit – Unsicherheit aufgrund mangelnden Wissens – ein, das sie Maximum Mean Imprecision nennen. Dieses Maß vergleicht „optimistische“ und „pessimistische“ Versionen der Modellvorhersagen, um zu quantifizieren, wie viel das Modell nicht weiß. Sie zeigen, dass Maximum Mean Imprecision mehrere wichtige logische Anforderungen erfüllt, die in früheren Arbeiten identifiziert wurden. In ihren Experimenten zeigt sich, dass das Maß bei Klassifikationsaufgaben zuverlässig funktioniert und auch dann rechnerisch handhabbar bleibt, wenn die Anzahl der Klassen groß ist.

Aus Sicht der Forschenden liegt der Hauptwert dieser Arbeit darin, die theoretischen und praktischen Grundlagen für unsicherheitsbewusste maschinelle Lernmethoden zu stärken. Für die Gesellschaft bietet sie Werkzeuge, mit denen KI-Systeme Unsicherheit klarer kommunizieren können – ein wichtiger Faktor in Bereichen wie Medizin, wissenschaftlicher Modellierung und Entscheidungsfindung, in denen das Verständnis der Grenzen vorhandenen Wissens entscheidend ist.

Die Forschenden untersuchen, warum eine gängige Trainingstechnik für neuronale Netze, Label Smoothing, sich manchmal auf unerwartete und nachteilige Weise verhält. Label Smoothing soll verhindern, dass Modelle in ihren Vorhersagen übermäßig selbstsicher werden. Jüngste Beobachtungen zeigen jedoch zwei Probleme: Es kann Modelle selbstsicherer machen, gerade wenn sie falsch liegen, und es kann die internen Repräsentationen so stark komprimieren, dass feine Unterschiede innerhalb derselben Klasse verloren gehen.

Die Autor:innen analysieren die Mathematik hinter Label Smoothing und identifizieren die Ursache: Die Methode enthält unbeabsichtigt einen Term, der Fehler verstärkt. Wenn das Modell einen Fehler macht, ermutigt dieser Term das Modell, die falsche Vorhersage weiter zu bestärken. Dadurch steigt das Vertrauen des Modells in die falsche Antwort, und die Repräsentationen werden in eine übermäßig einheitliche Struktur gedrängt.

Um dieses Problem zu lösen, schlagen die Forschenden Max Suppression (MaxSup) vor. Anstatt – wie beim Label Smoothing – das Vertrauen in die wahre Klasse zu reduzieren, senkt MaxSup das Vertrauen in jene Klasse, von der das Modell aktuell am stärksten überzeugt ist – unabhängig davon, ob diese Überzeugung korrekt ist oder nicht. Dies führt zu einer konsistenteren und faireren Form der Regularisierung: Korrekte Vorhersagen werden weiterhin daran gehindert, übermäßig selbstsicher zu werden, während falsche Vorhersagen nicht länger unbeabsichtigt verstärkt werden.

Experimente zeigen, dass MaxSup mehr natürliche Variation innerhalb jeder Klasse bewahrt, die Trennung zwischen Klassen verstärkt und die Genauigkeit auf Standard-Benchmarks wie ImageNet verbessert. Modelle, die mit MaxSup trainiert wurden, lassen sich zudem besser auf neue Aufgaben übertragen – etwa auf die semantische Segmentierung – und zeigen in Visualisierungswerkzeugen bedeutungsvollere Aufmerksamkeitsmuster.

Aus gesellschaftlicher Perspektive liefert diese Forschung ein klareres Verständnis dafür, wie weit verbreitete Trainingstechniken tatsächlich wirken, und bietet eine einfache, kostengünstige Verbesserung. Besser kalibrierte und robustere Modelle können zu sichereren und zuverlässigeren KI-Systemen beitragen – insbesondere in Anwendungsbereichen, in denen Klassifikationsqualität und Interpretierbarkeit entscheidend sind – ohne neue Risiken oder Abhängigkeiten einzuführen.

Die Forschenden untersuchen, wie Fehler oder Manipulationen in Trainingsdaten die Zuverlässigkeit von KI-Systemen beeinträchtigen können. Bestehende Abwehrmechanismen stützen sich meist auf Heuristiken und versagen häufig bei neuen oder komplexeren Angriffen. Die Autorinnen und Autoren schlagen daher MIBP-Cert vor, eine neue Methode, die nachweisbare Garantien darüber liefert, wie stark Störungen in den Trainingsdaten ein Machine-Learning-Modell beeinflussen können.

Die zentrale Idee besteht darin, den gesamten Trainingsschritt – Forward Pass, Verlustberechnung, Backward Pass und Parameteraktualisierung – als ein einziges mathematisches Optimierungsproblem zu modellieren. Durch das Lösen dieses Problems bestimmt die Methode alle möglichen Parameterwerte, die ein Modell annehmen könnte, wenn die Trainingsdaten innerhalb eines bestimmten Bereichs verändert würden. Diese erreichbaren Parametersätze ermöglichen es den Forschenden zu garantieren, wann die Vorhersagen eines Modells unverändert bleiben, selbst unter schlimmstmöglichen Manipulationen. Anders als frühere Ansätze, die auf groben Approximationen basieren und leicht instabil werden, bewahrt MIBP-Cert die genauen Beziehungen zwischen Variablen innerhalb jedes Trainingsschrittes. Dadurch entstehen präzisere und stabilere Schranken.

Experimente auf synthetischen und realen Datensätzen zeigen, dass die Methode höhere und konsistentere zertifizierte Genauigkeit liefert, insbesondere bei großen Störungen. Sie unterstützt zudem komplexere Szenarien, etwa unsichere Umfrageantworten oder fehlende Gesundheitsdaten, die frühere Zertifizierungstechniken nicht handhaben konnten. Der wichtigste Nachteil ist der Rechenaufwand: Das Lösen vieler gemischt-ganzzahliger bilinearer Programme ist langsamer als einfachere Approximationen, bleibt jedoch für kleine bis mittelgroße Modelle praktikabel.

Aus gesellschaftlicher Perspektive bietet diese Forschung eine fundierte Möglichkeit, zu verstehen und zu kontrollieren, wie sich die Qualität von Trainingsdaten auf das Verhalten von KI auswirkt. Da KI-Systeme zunehmend auf heterogene, verrauschte oder nutzergenerierte Daten angewiesen sind, können Methoden wie MIBP-Cert dazu beitragen, sicherzustellen, dass Modelle auch dann vorhersehbar bleiben, wenn die Daten, aus denen sie lernen, unvollständig oder fehlerhaft sind. Zwar löst dies nicht alle Herausforderungen rund um Datenqualität, aber es stellt einen Schritt in Richtung transparenterer und vertrauenswürdigerer KI-Systeme dar.

Die Forschenden stellen NEURULES vor, eine neue Methode zur Erstellung regelbasierter Machine-Learning-Modelle, die für Menschen leicht verständlich bleiben und dennoch eine hohe Vorhersagegenauigkeit erreichen. Regellisten sind einfache „Wenn–Dann–Sonst“-Strukturen: Sie prüfen Bedingungen der Reihe nach und treffen eine Entscheidung anhand der ersten Regel, die zutrifft. Solche Modelle sind insbesondere in Bereichen wie Medizin oder Kreditwürdigkeitsprüfung wertvoll, in denen transparente Entscheidungen wichtig sind. Bestehende Techniken stoßen jedoch oft an ihre Grenzen, weil sie kontinuierliche Daten vorab vereinfachen müssen, die Komplexität der Regeln einschränken oder nicht effizient durch die große Zahl möglicher Regelkombinationen suchen können.

NEURULES begegnet diesen Herausforderungen, indem es das Lernen von Regellisten in eine Form überführt, die sich mit gradientenbasiertem Training optimieren lässt – ähnlich wie bei neuronalen Netzen. Anstatt Regelbedingungen im Voraus festzulegen, lernt die Methode die Schwellenwerte direkt aus den Daten. Außerdem erstellt sie während des Trainings die Regeln und bestimmt deren Reihenfolge, ohne dass manuelle Einschränkungen nötig wären. Ein zentrales Element ist ein Mechanismus zum „Gradient Shaping“, der Regeln auf natürliche Weise dazu bringt, nur die wirklich relevanten Bedingungen zu verwenden – was sie kurz und gut lesbar hält. Ein weiterer Baustein ermöglicht es, die Reihenfolge der Regeln stufenweise zu lernen und sie nach Abschluss des Trainings in eine feste Abfolge zu überführen.

In zahlreichen realen Datensätzen, sowohl in binären als auch in Multi-Klassen-Problemen, erzielte NEURULES eine ebenso gute oder bessere Leistung als etablierte Regel-Lernsysteme und erzeugte häufig kompaktere Modelle mit konkurrenzfähiger Genauigkeit. Die Methode skaliert zudem auf größere Datensätze, bei denen exakte oder kombinatorische Ansätze zu langsam werden.

Aus gesellschaftlicher Perspektive trägt diese Forschung zur Entwicklung interpretierbarer Machine-Learning-Werkzeuge bei, die transparente und verantwortungsvolle Entscheidungsprozesse unterstützen können. Indem NEURULES das Gleichgewicht zwischen Genauigkeit und Interpretierbarkeit verbessert, kann es Fachleuten helfen, Machine Learning in sensiblen Bereichen mit größerem Vertrauen einzusetzen – wobei weiterhin eine sorgfältige Bewertung und verantwortungsbewusste Anwendung in realen Umgebungen erforderlich bleibt.

Diese Forschung untersucht, wie man Conformal Prediction – eine statistische Methode, die zuverlässige, modellunabhängige Vorhersagemengen erzeugt – robuster gegenüber Eingaberauschen machen kann, ohne die Berechnung zu stark zu belasten. Bestehende robuste Verfahren basieren häufig auf Randomized Smoothing, also dem Hinzufügen von Rauschen zu Eingaben, damit kleine Störungen die Vorhersagen nicht zu stark verändern. Solche Methoden benötigen jedoch oft dutzende oder sogar hunderte wiederholte Modellaufrufe pro Eingabe und sind damit für viele praktische Anwendungen zu langsam.

Die Forschenden zeigen, dass ein Großteil dieser Wiederholungen unnötig ist. Ihre zentrale Beobachtung: Bereits die Standard-Conformal Prediction zeigt, kombiniert mit nur einem rauschbehafteten Inferenzdurchlauf, eine überraschend hohe Robustheit. Auf dieser Einsicht aufbauend entwickeln sie RCP1, eine Methode, die nur einen einzigen verrauschten Forward Pass pro Eingabe benötigt. Anstatt die Robustheit einzelner Modelloutputs zu zertifizieren, zertifiziert RCP1 die Robustheit des gesamten conformal-prediction-Verfahrens – was die Berechnung erheblich vereinfacht.

RCP1 ist mit jedem zugrunde liegenden Modell kompatibel und funktioniert sowohl für Klassifikation als auch für Regression. Trotz der geringen Rechenkosten erreicht die Methode Vorhersagemengengrößen, die mit dem Stand der Technik vergleichbar sind, für den sonst dutzende oder hunderte Stichproben nötig wären. Die Autor*innen erweitern ihren Ansatz zudem auf Conformal Risk Control, wodurch robuste Garantien auch für Aufgaben wie Bildsegmentierung möglich werden, bei denen Fehler anders gemessen werden als bei einfacher Fehlklassifikation.

In der Praxis ermöglicht RCP1 schnellere Inferenz, funktioniert mit größeren und genaueren Modellen, die für traditionelle Smoothing-Methoden zu teuer wären, und bietet dennoch formale Robustheitsgarantien. Eine bekannte Einschränkung besteht darin, dass die Ergebnisse leicht stärker zwischen einzelnen verrauschten Stichproben schwanken können, was jedoch die Gesamtzuverlässigkeit nicht beeinträchtigt.

Aus gesellschaftlicher Perspektive trägt diese Forschung dazu bei, Machine-Learning-Systeme unter realistischen Bedingungen – einschließlich Rauschen, Störungen und adversarialen Eingaben – vorhersehbarer und vertrauenswürdiger zu machen, ohne die Rechenkosten zu sprengen. Dies kann eine sicherere Nutzung von KI in Bereichen unterstützen, in denen Verlässlichkeit essenziell ist.

Die Forschenden untersuchen, warum das Finetuning großer neuronaler Netze so ressourcenintensiv ist und ob wirklich alle Parameter aktualisiert werden müssen. In mehreren Experimenten mit Sprach- und Vision-Modellen beobachten sie ein konsistentes Muster: Beim Finetuning treten die stärksten Gradienten – also die Signale, die das Lernen vorantreiben – vor allem bei Parametern auf, deren Werte sehr klein sind. Im Gegensatz dazu erhalten Gewichte mit großer Magnitude, die oft wichtiges Wissen aus dem Pretraining repräsentieren, kleinere Gradienten und verändern sich daher weniger.

Aufbauend auf dieser Beobachtung schlagen die Autor:innen NANOADAM vor, einen Optimierer, der nur die Parameter mit den kleinsten Absolutwerten aktualisiert. Anders als andere Ansätze benötigt diese Methode keine Gradienten, um zu entscheiden, welche Parameter aktualisiert werden, kann die Auswahlmaske vorab berechnen und vermeidet es, unnötige große Anteile an Momenten zu speichern. Theoretisch zeigen die Forschenden anhand eines vereinfachten neuronalen Netzes, dass das Aktualisieren kleiner Gewichte dem Modell hilft, neue Informationen zu lernen, während zentrale Repräsentationen erhalten bleiben. Anders ausgedrückt verringert das Verfahren das Risiko des „katastrophalen Vergessens“, bei dem die Anpassung an eine neue Aufgabe zuvor gelernte Fähigkeiten beeinträchtigt.

In Experimenten auf gängigen Sprach- und Vision-Benchmarks erreicht NANOADAM häufig eine ähnliche oder bessere Leistung als speichereffiziente Baselines. Es ermöglicht größere Lernraten, erzielt bessere Generalisierung und führt zu deutlich kleineren Gesamtverschiebungen der vortrainierten Parameter. In Continual-Learning-Tests bewahrt es Wissen deutlich besser als Full-Update-Methoden wie AdamW – insbesondere bei größeren und stärker überparametrisierten Modellen. Die Methode hat jedoch Einschränkungen: Sie setzt voraus, dass Modelle stark überparametrisiert sind und dass eine gewisse Ähnlichkeit zwischen Pretraining- und Finetuning-Aufgabe besteht. Wenn diese Bedingungen nicht erfüllt sind, können Full-Update-Optimierer weiterhin vorzuziehen sein.

Für die Gesellschaft bietet diese Forschung eine ressourceneffizientere Möglichkeit, große Modelle an neue Aufgaben anzupassen. Durch die Reduktion von Speicher- und Rechenaufwand – und durch die Begrenzung des Verlusts zuvor gelernter Fähigkeiten – kann sie dazu beitragen, fortgeschrittene KI-Modelle zugänglicher, verlässlicher und kostengünstiger in der Praxis einsetzbar zu machen.

Die Forschenden untersuchen, warum eine weit verbreitete Methode für verteiltes maschinelles Lernen – Local SGD – in der Praxis oft besser funktioniert, als es die bisherige Theorie erklären konnte, insbesondere wenn sich die Daten der teilnehmenden Geräte voneinander unterscheiden. Sie konzentrieren sich auf eine Form der Datenvariation, die Second-Order-Heterogenität genannt wird und beschreibt, wie stark sich die „Krümmung“ der Lernprobleme auf den einzelnen Geräten unterscheidet. Frühere theoretische Arbeiten vermuteten bereits, dass dieser Faktor eine wichtige Rolle spielt, doch eine vollständige Erklärung fehlte bislang.

Das Paper bestätigt, dass Second-Order-Heterogenität tatsächlich bestimmt, wie effizient Local SGD lernen kann, wenn die Kommunikation zwischen Geräten begrenzt ist. Die Forschenden zeigen dies, indem sie neue mathematische untere und obere Schranken dafür herleiten, wie schnell die Methode konvergieren kann. Diese Ergebnisse zeigen, dass Local SGD gute Genauigkeit mit weniger Kommunikationsrunden erreichen kann, wenn sich die Daten der Geräte nur in diesem Second-Order-Sinn schwach unterscheiden. Das erklärt, warum die Methode häufig Alternativen wie Mini-Batch-SGD übertrifft.

Ein zentraler technischer Fortschritt ist eine präzisere Analyse des Konsensusfehlers – der vorübergehenden Unterschiede zwischen den lokalen Modellen auf den einzelnen Geräten, bevor sie gemittelt werden. Die Autor*innen zeigen, wie dieser Fehler von verschiedenen Formen der Datenheterogenität abhängt, und leiten Schranken ab, die frühere einschränkende Annahmen vermeiden. Sie erweitern ihre Analyse außerdem auf Fälle, in denen die Lernziele glatter oder sogar exakt quadratisch sind, und erhalten dadurch schärfere Garantien. Kontrollierte Experimente auf synthetischen Regressionsaufgaben stützen die theoretischen Ergebnisse und veranschaulichen, wie sich First-Order- und Second-Order-Heterogenität unterschiedlich auf die Leistung auswirken.

Aus Sicht der Forschenden schließen diese Ergebnisse mehrere theoretische Lücken und bringen das Verständnis von Local SGD näher an das Verhalten in realen Anwendungen heran. Für die Gesellschaft liefert die Arbeit eine solidere Grundlage für kommunikationseffiziente und datenschutzfreundliche Lernmethoden, die in Bereichen wie mobilen Geräten und Gesundheitsanwendungen wichtig sind. Zwar löst sie nicht alle Herausforderungen, doch verbessert sie die Verlässlichkeit von Werkzeugen, die es erlauben, Daten dezentral zu halten und dennoch effektives gemeinsames Lernen zu ermöglichen.

Die Forschenden untersuchen, warum das direkte Training von sparse neural networks von Grund auf weiterhin deutlich schlechter abschneidet als der Ansatz, zunächst ein dichtes Netzwerk zu trainieren und es anschließend zu prunen. Ihre Analyse zeigt, dass ein oft übersehener, aber entscheidender Faktor das Vorzeichen (positiv oder negativ) jedes Gewichts ist. Beim Dense-to-Sparse-Training wechseln viele Gewichte früh im Training ihr Vorzeichen und stabilisieren sich dann. Diese frühen Vorzeichenwechsel unterstützen das Netzwerk dabei, sich zu flacheren und robusteren Lösungen zu bewegen – etwas, das beim rein sparsamen Training nicht zuverlässig gelingt. Dieses Phänomen beschreiben die Autor:innen als early sign alignment.

Die Autor:innen zeigen, dass die Leistung sparsamer Modelle nahezu an Dense-to-Sparse-Methoden heranreichen würde, wenn man das Training bereits mit den „richtigen“ Vorzeichen beginnen könnte, die zur gewählten Sparsity-Maske passen. Sparse Training entdeckt diese Vorzeichen jedoch nicht selbstständig, da Vorzeichenwechsel schwierig werden, sobald das Modell aus einem stark eingeschränkten, sparsamen Zustand heraus startet.

Um dieses Problem zu lösen, führen sie Sign-In ein – eine Reparametrisierungstechnik, die jedem Parameter einen zusätzlichen internen Freiheitsgrad gibt. Diese Änderung beeinflusst, wie Gradienten auf die Gewichte wirken, und macht Vorzeichenwechsel während des Trainings leichter möglich. In einfachen theoretischen Modellen zeigt sich, dass Sign-In in Situationen zuverlässig die korrekten Vorzeichen wiederherstellt, in denen herkömmliches Sparse Training scheitert. In groß angelegten Experimenten auf gängigen Vision-Benchmarks verbessert Sign-In konsistent die Genauigkeit sparsamer Modelle, die von Grund auf trainiert werden, und stärkt auch einige bestehende Sparsifikationsmethoden. Dennoch erreicht Sign-In noch nicht die Leistung von Methoden, die mit dichtem Training beginnen, und die Autor:innen beweisen, dass keine Reparametrisierung allein die Vorteile ersetzen kann, die Überparametrisierung bietet.

Insgesamt klärt diese Arbeit einen zentralen Mechanismus – early sign alignment – hinter dem Erfolg von Dense-to-Sparse-Training und liefert eine praktische Methode, die die Lücke beim Training von **sparse neural networks** von Grund auf verkleinert. Dies kann zukünftige Bemühungen unterstützen, effizientere Trainingspipelines zu entwickeln und Rechenkosten zu reduzieren, auch wenn dichte Trainingsphasen bisher nicht vollständig vermieden werden können.

Die Forschenden untersuchten, wie gut starke Membership-Inference-Attacks aufdecken können, ob ein bestimmtes Textbeispiel Teil der Trainingsdaten eines großen Sprachmodells war. Dafür skalierten sie eine leistungsfähige Angriffsmethode („LiRA“) auf ein ungewöhnlich großes Setting: Tausende GPT-2-ähnliche Modelle, die auf Dutzenden Milliarden Token trainiert wurden. Dadurch konnten sie diese Angriffe unter Bedingungen testen, die dem realen Training großer Sprachmodelle deutlich näherkommen als frühere Arbeiten.

Sie fanden heraus, dass starke Angriffe tatsächlich besser abschneiden können als reines Raten – jedoch nur in begrenztem Ausmaß unter realistischen Trainingsbedingungen. Selbst mit vielen Referenzmodellen blieb die Angriffsgenauigkeit meist unter einem häufig verwendeten Schwellenwert (AUC 0,7). Modelle, die auf die übliche „Compute-Optimal“-Weise trainiert wurden, waren nicht besonders verwundbar, und größere Modelle waren nicht automatisch leichter anzugreifen.

Das Team entdeckte außerdem eine wichtige Nuance: Selbst wenn der Angriff im Durchschnitt erfolgreich erscheint, können die Vorhersagen für einzelne Beispiele extrem instabil sein. Weil Trainingsläufe je nach Faktoren wie der Reihenfolge der Batches leicht variieren, verhalten sich viele Membership-Entscheidungen wie Münzwürfe – insbesondere für Beispiele, deren statistisches „Signal“ schwach oder mehrdeutig ist. Das bedeutet, dass ein Angriff zwar richtig raten kann, aber nicht unbedingt aufgrund verlässlicher Informationen.

Die Forschenden untersuchten zudem, warum einige Beispiele verwundbarer sind. Sie beobachteten, dass Beispiele, die später im Training gesehen werden, sowie längere Beispiele tendenziell stärker gefährdet sind. Allerdings fanden sie keinen klaren Zusammenhang zwischen Beispielen, die anfällig für Membership-Inference-Angriffe sind, und solchen, die sich leicht durch herkömmliche Training-Data-Extraction-Angriffe extrahieren lassen. Dies deutet darauf hin, dass es sich um zwei unterschiedliche Arten von Memorization-Risiken handelt.

Insgesamt liefert die Arbeit eine klarere und realistischere Grundlage zur Bewertung von Datenschutzrisiken in großen Sprachmodellen. Sie zeigt, dass starke Membership-Inference-Angriffe zwar funktionieren können, ihre praktische Relevanz derzeit jedoch begrenzt ist. Dies hilft der Gesellschaft, Datenschutzdiskussionen auf empirische Evidenz zu stützen und besser zu verstehen, wo echte Risiken – und wirksame Gegenmaßnahmen – noch weiter untersucht werden müssen.

Die Forschenden untersuchen, warum sich manche dünn besetzten (sparsen) neuronalen Netze leichter trainieren lassen als andere – selbst dann, wenn sie die gleiche Anzahl verbleibender Verbindungen besitzen. Ihre zentrale Idee besteht darin, Pruning – also das Entfernen von Gewichten – als die Erzeugung einer Sequenz von Graphen zu betrachten, die beschreiben, welche Neuronen weiterhin miteinander verbunden sind. Wenn Netze breiter werden, wachsen diese Graphen größer und regelmäßiger. Die Autor*innen schlagen vor, dass diese wachsenden Graphen gegen einen Graphon konvergieren – ein mathematisches Objekt, das das Grenz-Konnektivitätsmuster einer Pruning-Methode beschreibt.

Sie testen diese Hypothese anhand mehrerer beliebter pruning-at-initialization-Techniken. Die Experimente zeigen, dass jede Methode konsistent Masken erzeugt, die sich mit wachsender Netzwerkbreite einem charakteristischen Graphon annähern. Zufälliges Pruning führt beispielsweise zu einem gleichmäßigen Muster, während andere Methoden stärker strukturierte Muster erzeugen, die bestimmte Neuronen bevorzugen.

Darauf aufbauend entwickeln die Autor*innen den Graphon Neural Tangent Kernel (Graphon NTK). Dieses Werkzeug ermöglicht es ihnen zu untersuchen, wie diese Grenz-Konnektivitätsmuster die Trainingsdynamik sehr breiter, dünn besetzter Netze beeinflussen. Sie zeigen, dass die spektralen Eigenschaften des Kernels – insbesondere die Verteilung seiner Eigenwerte – damit korrelieren, wie schnell und effektiv ein sparse Netzwerk mit dem Lernen beginnt. Methoden wie SNIP und Synflow konzentrieren die Energie des Kernels auf eine Weise, die in den frühen Trainingsphasen zu schnellerem Lernen führt als zufälliges Pruning.

Insgesamt liefert die Arbeit einen einheitlichen mathematischen Rahmen zur Beschreibung sparsamer Netzwerkstrukturen und ihres Trainingsverhaltens. Obwohl die Analyse auf idealisierte Szenarien unendlicher Breite abzielt, liefert sie praktische Einsichten: Pruning-Strategien können anhand ihrer induzierten Graphons und des daraus resultierenden Kernel-Verhaltens verglichen und möglicherweise gezielt entwickelt werden.

Für die Gesellschaft trägt diese Forschung eher grundlegendes Verständnis als unmittelbare Anwendungen bei. Indem sie aufzeigt, wie man sparse Netzwerke erzeugen kann, die sich zuverlässig trainieren lassen, kann sie die zukünftige Entwicklung effizienterer KI-Systeme unterstützen, die weniger Rechenaufwand und Energie benötigen – ohne dabei kurzfristige Auswirkungen zu überbewerten.