20 CISPA Paper at ICLR 2026

Das Paper untersucht, wie zuverlässig Datenschutzmechanismen bei der Anpassung großer Sprachmodelle mit sensiblen Daten in der Praxis funktionieren. Bartłomiej Marek, Lorenzo Rossi, Vincent Hanke, Xun Wang, Michael Backes, Franziska Boenisch und Adam Dziedzic analysieren insbesondere den Einsatz sogenannter differenzieller Privatsphäre, die theoretisch verhindern soll, dass einzelne Trainingsdaten aus einem Modell rekonstruiert werden können.

Sie prüfen systematisch, wie stark Modelle dennoch Informationen preisgeben. Dazu simulieren sie Angriffe, die erkennen sollen, ob bestimmte Daten im Training enthalten waren oder sich sogar direkt extrahieren lassen. Ein zentraler Faktor ist dabei die Ähnlichkeit zwischen den neuen Trainingsdaten und den ursprünglichen Vortrainingsdaten.

Die Ergebnisse zeigen, dass das reale Datenschutzrisiko deutlich steigt, wenn sich beide Datensätze ähneln – selbst ohne direkte Überschneidungen. Daten aus derselben Verteilung sind nahezu genauso anfällig wie identische Trainingsdaten. Ist der Unterschied zwischen den Datensätzen dagegen groß, sinkt das Risiko deutlich.

Auch die Wahl der Anpassungsmethode beeinflusst den Schutz. Effiziente Verfahren wie LoRA schneiden oft besser ab als vollständiges Nachtrainieren, vor allem bei stark unterschiedlichen Daten. Unter strengen Privatsphäre-Einstellungen gleichen sich die Unterschiede jedoch weitgehend an. Zudem zeigen die Analysen, dass manche Methoden anfälliger für direkte Datenextraktion sind.

Sie machen deutlich, dass theoretische Garantien allein nicht ausreichen, um Datenschutz realistisch zu bewerten, und schlagen einen umfassenderen Prüfrahmen vor, der Vortraining und Anpassung gemeinsam betrachtet.

Für die Gesellschaft bedeutet das: Der Einsatz von Sprachmodellen in sensiblen Bereichen kann besser abgesichert werden, wenn Datenschutz nicht nur theoretisch verstanden, sondern auch praktisch überprüft wird.

Gowtham Reddy Abbavaram, Rajeev Verma, Celia Rubio Madrigal, Krikamol Muandet und Rebekka Burkholz untersuchen, warum sogenannte Boosting-Verfahren in der Praxis oft robuster mit neuen, unbekannten Daten umgehen als viele speziell entwickelte Methoden. Dabei geht es um das Problem, dass sich Daten in der Realität häufig verändern, etwa durch verborgene Einflussfaktoren, die in den Trainingsdaten nicht direkt sichtbar sind.

Sie zeigen, dass viele bestehende Ansätze versuchen, Daten in feste Gruppen („Umgebungen“) einzuteilen, um stabile Zusammenhänge zu lernen. Diese Einteilung ist jedoch oft unsicher, weil nicht eindeutig festgelegt werden kann, welche Gruppierung die richtige ist. Das kann dazu führen, dass Modelle scheinbare, aber nicht verlässliche Muster lernen.

Die Autor:innen führen stattdessen ein neues Konzept ein, die sogenannte „α-prädiktive Suffizienz“. Vereinfacht bedeutet das: Gute Vorhersagen sollten unabhängig davon sein, aus welcher Umgebung die Daten stammen, selbst wenn verborgene Einflussfaktoren wirken. Sie zeigen theoretisch, dass Boosting-Methoden diese Eigenschaft annähern, indem sie viele einfache Modelle kombinieren. Dadurch berücksichtigen sie unterschiedliche mögliche Gruppierungen der Daten gleichzeitig, statt sich auf eine einzige festzulegen.

Experimente mit künstlichen und realen Datensätzen bestätigen diese Idee. Boosting-Modelle erkennen dabei implizit Strukturen, die mit den verborgenen Einflussfaktoren zusammenhängen, und liefern stabilere Vorhersagen bei veränderten Daten.
Die Arbeit trägt zum besseren Verständnis bei, warum einfache, etablierte Methoden in der Praxis oft zuverlässig sind. Langfristig kann dies helfen, robustere KI-Systeme zu entwickeln, etwa in Medizin, Wirtschaft oder Wissenschaft. Gleichzeitig bleibt offen, wie gut sich die Ergebnisse auf andere Datentypen übertragen lassen.

Yuan Gao, Anton Rodomanov, Jeremy Rack und Sebastian Stich untersuchen ein zentrales Problem beim Training großer Machine-Learning-Modelle: den hohen Kommunikationsaufwand zwischen verteilten Rechnern. Übliche Verfahren komprimieren Daten, um Bandbreite zu sparen, führen dabei aber zu Fehlern. Eine verbreitete Korrekturtechnik („Error Feedback“) funktioniert gut für einfache Optimierungsprobleme, versagt jedoch bei komplexeren Aufgaben, in denen neben einer glatten Zielfunktion auch Zusatzbedingungen oder Regularisierungen berücksichtigt werden.

Die Autor:innen zeigen zunächst, warum diese bisherigen Methoden im sogenannten „kompositen“ Fall theoretisch und praktisch an Grenzen stoßen. Der Kern des Problems liegt darin, dass sich Fehler nicht mehr sauber nachverfolgen lassen, sobald zusätzliche Einschränkungen in die Optimierung eingehen.

Als Lösung entwickeln sie ein neues Verfahren, das zwei Ansätze kombiniert: „Dual Averaging“ (eine Methode, die Gradienten über die Zeit aufsummiert) und eine moderne Variante der Fehlerkorrektur. Dadurch können die entstehenden Fehler wieder kontrolliert werden. Die Arbeit liefert erstmals eine mathematische Analyse, die zeigt, dass dieses Verfahren auch im komplexeren Fall ähnlich effizient konvergiert wie bekannte Methoden im einfacheren Setting.

Zusätzlich stellen sie eine allgemeine Analyse-Technik vor, die auch für andere Optimierungsprobleme mit ungenauen oder verrauschten Daten nützlich sein könnte. Experimente bestätigen die theoretischen Ergebnisse und zeigen, dass das Verfahren in der Praxis stabil arbeitet.

Die Forschung trägt dazu bei, verteiltes maschinelles Lernen effizienter zu machen, insbesondere bei großen Modellen und begrenzten Kommunikationsressourcen. Das kann langfristig helfen, energie- und ressourcenschonendere KI-Systeme zu entwickeln, ohne grundlegende Durchbrüche zu versprechen.

Dariush Wahdany, Matthew Jagielski (Anthropic), Adam Dziedzic und Franziska Boenisch haben untersucht, ob Data Curation wirklich die Privatsphäre schützt. Moderne ML-Systeme hängen immer stärker von Data Curation ab, also vom gezielten Auswählen, Filtern und Gewichten von Trainingsdaten, und das ist inzwischen einer der wichtigsten Hebel für Modellqualität. Statt einfach die Datenmenge hochzuskalieren, setzen Teams auf Curation, um die nützlichsten Beispiele herauszupicken, Rauschen rauszuwerfen und gezielt zu steuern, was ein Modell am Ende lernt. Daraus ist ein eigener Industriezweig geworden, mit spezialisierten Tools und Firmen, die Curation-Pipelines für alles Mögliche anbieten, vom Pretraining großer Foundation Models bis zum domänenspezifischen Fine-Tuning. In sensiblen Bereichen liegt dann eine Idee nahe: Curation als Datenschutz-Schild. Man trainiert nicht direkt auf sensiblen Daten wie Patientenakten oder Finanztransaktionen, sondern nutzt diese nur, um daraus passende öffentliche Daten auszuwählen. Das Modell selbst sieht dann nur die öffentlichen Daten, was sich intuitiv deutlich sicherer anfühlt.

Die Autor:innen zeigen, dass diese Intuition täuscht. Schon der Auswahlprozess selbst verrät Informationen über den privaten Datensatz. Sie entwickeln mehrere Membership-Inference-Angriffe, mit denen sich feststellen lässt, ob bestimmte Datenpunkte im sensiblen Datensatz waren, und diese Angriffe funktionieren auf jeder Stufe der Pipeline: beim Scoring der Daten, bei der Auswahl der Teilmengen und sogar gegen das fertige Modell, das nur auf öffentlichen Daten trainiert wurde. Ein Modell, das die privaten Daten technisch gesehen nie „gesehen" hat, kann ihren Inhalt also trotzdem verraten, über die Entscheidungen, die seinen Trainingssatz geprägt haben.

Die Experimente decken verschiedene Curation-Methoden ab. Einige sind robuster als andere, aber angreifbar bleiben sie alle, und zwar besonders dann, wenn der private Datensatz klein ist, also genau in dem Fall, in dem Curation-basierte Ansätze am attraktivsten sind. Die Autor:innen zeigen außerdem, dass Differential Privacy im Curation-Schritt die Leckage deutlich reduzieren kann, allerdings mit dem üblichen Trade-off bei der Modellleistung.

Die größere Lehre daraus: Datenschutzanalysen dürfen nicht erst beim Training ansetzen. Jeder Schritt, der sensible Daten berührt, auch scheinbar harmlose wie Scoring oder Filterung, ist eine potenzielle Leckagequelle. Für Anwendungen im Gesundheitswesen, im Finanzsektor und in anderen regulierten Bereichen heißt das: „Wir haben ja nicht auf den sensiblen Daten trainiert" reicht als Datenschutz-Argument nicht aus. Curation-Pipelines brauchen eigene Schutzmaßnahmen.

Mohammad Moshtaghifar (University of British Columbia), Anton Rodomanov, Daniil Vankov (Arizona State University) und Sebastian Stich stellen mit „DADA“ ein neues Optimierungsverfahren vor, das vor allem in der maschinellen Lernpraxis relevant ist. Solche Verfahren helfen dabei, mathematische Probleme effizient zu lösen, etwa beim Trainieren von KI-Modellen. Ein zentrales Problem bisheriger Methoden ist, dass wichtige Einstellungen – insbesondere die Schrittweite – oft manuell angepasst werden müssen, was zeitaufwendig und rechenintensiv ist.

DADA setzt genau hier an: Das Verfahren passt seine Parameter automatisch während des Rechenprozesses an. Es nutzt dabei Informationen über die bisherigen Rechenschritte und deren Abstand zum Startpunkt, um sich dynamisch zu justieren. Dadurch entfällt die Notwendigkeit, problemabhängige Einstellungen im Voraus festzulegen. Gleichzeitig kann DADA auf eine breite Klasse von Optimierungsproblemen angewendet werden, darunter sowohl einfache als auch komplexere Funktionen mit unterschiedlichen Glattheitseigenschaften.

Die Autor:innen zeigen theoretisch, dass ihr Verfahren in vielen Fällen ähnlich effizient ist wie spezialisierte Methoden, dabei jedoch universeller einsetzbar bleibt. Experimente deuten darauf hin, dass DADA in unterschiedlichen Szenarien stabil arbeitet und mit bestehenden Ansätzen konkurrieren kann.

Die Arbeit trägt dazu bei, Optimierungsverfahren robuster und einfacher nutzbar zu machen. Für die Gesellschaft bedeutet das vor allem effizientere Entwicklung und geringere Kosten beim Training von KI-Systemen. Der Fortschritt liegt weniger in spektakulären Leistungssteigerungen als in praktischer Vereinfachung und breiter Anwendbarkeit.

Bihe Zhao, Louis Kerner, Michel Meintz, Tameem Bakr, Franziska Boenisch und Adam Dziedzic stellen ein Verfahren vor, mit dem sich nachvollziehen lässt, ob ein Bild von einem bestimmten KI-Modell erzeugt wurde. Im Fokus stehen sogenannte autoregressive Bildmodelle, die Bilder in Form von „Token“ erzeugen, ähnlich wie Sprachmodelle Wörter generieren.

Ausgangspunkt ist die Beobachtung, dass KI-generierte Bilder eine charakteristische Spur im Inneren ihrer Darstellung hinterlassen: Ihre Bildmerkmale liegen näher an den internen „Codebuch“-Einträgen des Modells als bei natürlichen Bildern. Diese Eigenschaft nutzen die Autor:innen, um zwei Messgrößen zu entwickeln, die zusammen bestimmen, ob ein Bild zu einem bestimmten Modell gehört.

Das Verfahren funktioniert nachträglich, ohne Änderungen am Modell oder am Erzeugungsprozess. Es analysiert ein gegebenes Bild und vergleicht dessen interne Repräsentation mit den typischen Mustern eines Modells. Dadurch kann nicht nur zwischen echten und generierten Bildern unterschieden werden, sondern auch festgestellt werden, welches konkrete Modell das Bild erzeugt hat.

In umfangreichen Tests mit verschiedenen Modellen und Datensätzen erreicht der Ansatz sehr hohe Trefferquoten von nahezu 100 % und bleibt auch bei nachträglichen Bildveränderungen wie Kompression oder Größenänderung zuverlässig. Zudem arbeitet das Verfahren effizient und benötigt nur eine einmalige Anpassung.

Die Studie zeigt damit, dass sich KI-generierte Bilder auch ohne sichtbare Wasserzeichen zuverlässig zurückverfolgen lassen. Für die Gesellschaft bedeutet das vor allem bessere Möglichkeiten, Herkunft und Echtheit von Bildern zu überprüfen. Das kann helfen, Desinformation, Betrug oder Missbrauch synthetischer Medien einzudämmen, ohne die Entwicklung solcher Technologien grundsätzlich einzuschränken.

Matthias Wilms, Sascha Xu und Jilles Vreeken stellen in ihrem Paper ein neues Modell vor, sogenannte „Explainable Mixture Models“ (XMM), das komplexe Datenverteilungen nicht nur beschreibt, sondern auch verständlich erklärt . Klassische Mischmodelle können Daten zwar in Teilgruppen zerlegen, liefern aber keine Hinweise darauf, unter welchen Bedingungen diese Gruppen entstehen.

Die Autor:innen kombinieren daher statistische Modelle mit einfachen, nachvollziehbaren Regeln über Eigenschaften der Daten, etwa Alter oder andere Merkmale. Jede Teilgruppe wird so nicht nur mathematisch beschrieben, sondern auch durch eine leicht interpretierbare Regel charakterisiert. Dadurch wird sichtbar, wann und warum bestimmte Muster auftreten.

Ein zentraler Beitrag ist ein Lernverfahren, das diese Regeln automatisch aus Daten ableitet. Anders als viele bisherige Ansätze basiert es auf einer kontinuierlichen Optimierung, wodurch sich auch große Datensätze effizient verarbeiten lassen. Gleichzeitig vermeiden sie typische Probleme anderer interpretierbarer Methoden, etwa zu komplexe Entscheidungsbäume oder schwer verständliche neuronale Netzwerke.

In Experimenten mit künstlichen und realen Datensätzen zeigt das Modell eine hohe Genauigkeit bei der Beschreibung der Daten und identifiziert sinnvolle Teilgruppen. Beispiele reichen von Versicherungsdaten bis zu Anwendungen in der Materialforschung, wo Zusammenhänge zwischen Struktur und Eigenschaften besser verständlich werden.

Die Ergebnisse zeigen, dass sich Genauigkeit und Verständlichkeit nicht ausschließen müssen. Für die Gesellschaft bedeutet das vor allem transparentere KI-Systeme, die Entscheidungen nachvollziehbarer machen. Dies kann Vertrauen in datengetriebene Anwendungen stärken, etwa in Wissenschaft, Medizin oder Wirtschaft, ohne dabei die Leistungsfähigkeit moderner Methoden wesentlich einzuschränken.

Yuki Takezawa (OIST), Anastasia Koloskova (University of Zurich), Xiaowen Jiang und Sebastian Stich untersuchen ein zentrales Problem des föderierten Lernens: Wie sich neuronale Netze effizient trainieren lassen, wenn Trainingsdaten auf viele Geräte verteilt sind und sich deutlich unterscheiden. Sie analysieren dabei insbesondere den Einsatz des Optimierungsverfahrens „Muon“, das in klassischen, zentralisierten Trainingsumgebungen bereits gute Ergebnisse gezeigt hat.

Zunächst zeigen sie, dass ein naheliegender Ansatz – Muon direkt in bestehende Verfahren wie FedAvg zu integrieren – nicht zuverlässig funktioniert. Der Grund ist eine systematische Verzerrung im zugrunde liegenden Optimierungsschritt, wodurch das Verfahren in realistischen Szenarien mit unterschiedlichen Datenverteilungen nicht stabil konvergiert .

Darauf aufbauend entwickeln sie ein neues Verfahren namens FEDMUON. Dieses korrigiert die identifizierte Verzerrung und kann theoretisch nachweisbar zu einer stabilen Lösung führen. Zusätzlich analysieren sie, wie sich Näherungen in den Berechnungen – notwendig aus Effizienzgründen – auf das Verhalten des Verfahrens auswirken. Dabei zeigen sie, dass FEDMUON auch mit ungenauen Berechnungen zuverlässig konvergiert und bei genauerer Berechnung schneller wird .

Experimente mit gängigen Datensätzen zeigen, dass FEDMUON in verschiedenen Szenarien eine höhere Genauigkeit erreicht als etablierte Methoden wie FedAvg oder SCAFFOLD . Besonders deutlich wird der Vorteil, wenn die Daten zwischen den beteiligten Geräten stark variieren – eine typische Situation im föderierten Lernen.

Die Forschung trägt dazu bei, das Training von KI-Modellen auf verteilten, datenschutzsensiblen Systemen effizienter und stabiler zu machen. Das ist insbesondere relevant für Anwendungen wie Smartphones oder medizinische Datenanalyse, bei denen Daten lokal bleiben sollen. Gleichzeitig handelt es sich um einen methodischen Fortschritt, dessen praktischer Nutzen von weiteren Tests in realen Anwendungen abhängt.

Mohamed Ghanem und Bernd Finkbeiner gehen eine zentrale Herausforderung der modernen KI an: die Lücke zwischen der tatsächlichen Bedeutung von Zuständen in einer Umgebung und der Art und Weise, wie neuronale Netze diese intern repräsentieren. In vielen Reinforcement-Learning-Systemen werden Zustände als latente Einbettungen kodiert, deren zeitliche Entwicklung nicht explizit modelliert wird, was zu einer Diskrepanz zwischen den gelernten Repräsentationen und den tatsächlichen Umgebungsdynamiken führen kann.

Sie schlagen vor, diese Dynamik explizit zu machen, indem sie eine Analogie zwischen Entscheidungsprozessen (Markov-Entscheidungsprozessen) und gewöhnlichen Differentialgleichungen ziehen. In beiden Fällen bestimmt der aktuelle Zustand vollständig den nächsten. Auf dieser Grundlage führen sie eine Regularisierungsmethode ein, die das neuronale Policy-Modell dazu anregt, latente Zustände zu lernen, die sich entlang konsistenter mathematischer „Flüsse“ entwickeln, wie sie durch Differentialgleichungen beschrieben werden. Diese zeitliche Ausrichtung sorgt dafür, dass die gelernten Repräsentationen sich kontinuierlich selbst vorhersagen.

Die Methode wird in bestehende Reinforcement-Learning-Algorithmen integriert, insbesondere in Actor-Critic-Ansätze. Experimente auf Standard-Benchmarks, einschließlich Atari-Spielen und Gridworld-Umgebungen, zeigen, dass diese zusätzliche Struktur die Leistung des Agenten deutlich verbessern kann.

Insgesamt zeigen die Ergebnisse, dass eine stärkere zeitliche Abstimmung der gelernten Repräsentationen mit den zugrunde liegenden Systemdynamiken die Effektivität von Modellen zur sequenziellen Entscheidungsfindung erhöhen kann.

Tom Jacobs, Advait Gadhikar, Celia Rubio-Madrigal und Rebekka Burkholz untersuchen, wie Optimierungsverfahren beim Training von neuronalen Netzen deren Verhalten beeinflussen. Ein zentrales Problem: Bestimmte moderne Trainingsmethoden fördern zwar sparsamer strukturierte Modelle (mit weniger aktiven Parametern), verlangsamen aber gleichzeitig das Lernen erheblich.

Sie schlagen dafür ein neues Verfahren namens „Hyperbolic Aware Minimization“ (HAM) vor. Dieses kombiniert einen üblichen Optimierungsschritt mit einem zusätzlichen mathematischen Schritt, der auf einer sogenannten hyperbolischen Geometrie basiert. Ziel ist es, die Vorteile bestehender Methoden zu erhalten – insbesondere die Tendenz zu sparsamen, gut generalisierenden Modellen – ohne deren Nachteile wie langsame Konvergenz.

Die theoretische Analyse zeigt, dass HAM das Lernen insbesondere in kritischen Bereichen beschleunigt, etwa wenn Modellparameter nahe null liegen. Dadurch können Modelle effizienter lernen und Parameter häufiger ihr Vorzeichen ändern, was für gutes Training wichtig ist. Gleichzeitig bleibt der gewünschte Effekt erhalten, dass das Modell zu einfacheren (sparsamen) Lösungen tendiert.

In Experimenten mit Bildklassifikation, Graphdaten und Sprachmodellen verbessert HAM die Leistung bestehender Verfahren konsistent. Besonders deutlich sind die Gewinne bei Methoden, die gezielt Parameter reduzieren (sogenannte „Sparse Training“-Verfahren). Der zusätzliche Rechenschritt verursacht dabei kaum Mehrkosten und lässt sich leicht in bestehende Trainingsprozesse integrieren.

Insgesamt zeigt die Arbeit, dass sich die Qualität und Effizienz von KI-Modellen durch gezielte Anpassung der Optimierungsverfahren verbessern lässt. Für die Gesellschaft bedeutet das vor allem: leistungsfähigere KI-Systeme könnten künftig mit weniger Rechenressourcen trainiert werden. Das ist relevant für Energieverbrauch, Kosten und Zugänglichkeit – stellt aber keinen grundlegenden Durchbruch dar, sondern einen methodischen Fortschritt innerhalb bestehender Ansätze.

Nhi Pham, Artur Jesslen, Bernt Schiele, Adam Kortylewski und Jonas Fischer stellen mit „CAVE“ ein Verfahren vor, das zwei zentrale Anforderungen moderner KI verbindet: Robustheit und Nachvollziehbarkeit. Bisherige neuronale Netze liefern oft gute Ergebnisse, bleiben aber schwer verständlich oder reagieren empfindlich auf ungewohnte Eingaben, etwa verdeckte Objekte oder veränderte Umgebungen .

CAVE setzt hier an, indem es Objekte nicht nur als zweidimensionale Bildmuster, sondern als vereinfachte dreidimensionale Volumen modelliert. Innerhalb dieser Volumen identifiziert das System wenige, klar abgegrenzte „Konzepte“, die bestimmte Teile oder Eigenschaften eines Objekts repräsentieren. Dadurch wird nachvollziehbar, welche Bildbereiche zur Entscheidung beitragen . Gleichzeitig bleibt die Klassifikation stabil, auch wenn sich Bildbedingungen ändern, etwa durch Verdeckung oder Wettereffekte.

Zusätzlich führen sie eine neue Bewertungsmethode ein, die misst, ob solche Konzepte über verschiedene Perspektiven hinweg konsistent bleiben, ohne auf manuell annotierte Bildteile angewiesen zu sein . In Experimenten erreicht das Verfahren eine günstige Kombination aus Genauigkeit, Stabilität und Interpretierbarkeit im Vergleich zu bestehenden Ansätzen .

Die Arbeit zeigt, dass sich leistungsfähige und erklärbare KI-Modelle nicht ausschließen müssen. Für Anwendungen in sicherheitskritischen Bereichen – etwa Medizin oder autonomes Fahren – könnte dies helfen, Entscheidungen besser zu überprüfen und Vertrauen in KI-Systeme zu stärken. Gleichzeitig bleibt offen, wie gut sich der Ansatz auf komplexere Szenarien übertragen lässt.

Ruichen Luo (IST Austria), Sebastian Stich (CISPA) und Krishnendu Chatterjee (IST Austria) untersuchen eine Klasse von Zwei-Personen-Spielen, die zwischen klassischen Nullsummenspielen und allgemeineren, schwerer zu berechnenden Spielen liegen.

Ausgangspunkt ist ein bekanntes Problem: Für Nullsummenspiele existieren effiziente Rechenverfahren, während allgemeinere Spiele deutlich aufwendiger zu lösen sind. Die Autor:innen führen daher eine neue Zwischenklasse ein, sogenannte „nahe Nullsummenspiele“, die reale Situationen besser abbilden, etwa wenn kleine zusätzliche Effekte wie Gebühren auftreten.

Ihr zentraler Beitrag ist ein neues Verfahren (ICL), das solche Spiele schrittweise in einfachere Nullsummen-Teilprobleme zerlegt. Dadurch können bestehende effiziente Methoden genutzt werden, anstatt das schwierigere Gesamtproblem direkt zu lösen. Theoretische Analysen zeigen, dass dieses Verfahren schneller zur Lösung (dem sogenannten Nash-Gleichgewicht) führt als klassische Methoden, wenn das Spiel nahe an einem Nullsummenspiel liegt.

Experimente bestätigen diese Vorhersage: Das neue Verfahren benötigt in solchen Fällen deutlich weniger Rechenschritte als etablierte Ansätze, während klassische Methoden von dieser speziellen Struktur nicht profitieren.

Einschränkungen bestehen darin, dass die Methode bisher nur für bestimmte Spieltypen und hauptsächlich für Zwei-Personen-Situationen analysiert wurde. Zudem sind einige theoretische Fragen zur optimalen Effizienz noch offen.

Die Arbeit liefert einen methodischen Fortschritt in der Spieltheorie und Optimierung. Sie zeigt, wie sich komplexe strategische Probleme effizienter lösen lassen, wenn ihre Struktur geschickt ausgenutzt wird. Für die Gesellschaft bedeutet das vor allem bessere Werkzeuge für Anwendungen in Bereichen wie Wirtschaft, künstliche Intelligenz oder Netzwerke – ohne jedoch unmittelbar konkrete Anwendungen zu liefern.

Lorenzo Rossi, Bartłomiej Marek, Franziska Boenisch und Adam Dziedzic untersuchen, wie sich der Datenschutz großer Sprachmodelle nachträglich überprüfen lässt. Ihr Ansatz nutzt sogenannte „natürliche Identifikatoren“ (NIDs) – strukturierte Zufallszeichenfolgen wie Hashwerte oder Wallet-Adressen, die ohnehin häufig in Trainingsdaten vorkommen.

Sie zeigen, dass sich aus diesen NIDs zusätzliche, ähnliche Daten künstlich erzeugen lassen, die als Vergleichsgrundlage dienen. Dadurch wird es möglich, zu prüfen, ob bestimmte Daten im Training enthalten waren und wie stark ein Modell potenziell Informationen preisgibt – ohne das Modell neu trainieren zu müssen.

Die Ergebnisse zeigen, dass dieser Ansatz in Experimenten mit offenen Sprachmodellen zuverlässig funktioniert. Die Methode erkennt Trainingsdaten mit hoher Genauigkeit und vermeidet dabei Fehlalarme. Gleichzeitig benötigt sie weniger Daten und Rechenaufwand als bisherige Verfahren und liefert genauere Abschätzungen von Datenschutzparametern.

Zusätzlich erweitern sie bestehende Angriffe zur Analyse von Trainingsdaten, indem sie statt einfacher Ja/Nein-Entscheidungen Ranglisten verwenden. Das verbessert die statistische Aussagekraft und Flexibilität der Analysen.

Die Autor:innen weisen darauf hin, dass die Methode auch missbraucht werden könnte, etwa um Trainingsdaten gezielter zu rekonstruieren. Gleichzeitig betonen sie, dass solche Werkzeuge notwendig sind, um Datenschutzversprechen überhaupt überprüfen zu können.

Insgesamt zeigt die Arbeit einen praktikablen Weg, die Datennutzung großer KI-Modelle transparenter zu machen. Für die Gesellschaft bedeutet das vor allem bessere Kontrollmöglichkeiten für Forschung, Regulierung und Öffentlichkeit. Gleichzeitig bleibt entscheidend, solche Methoden verantwortungsvoll einzusetzen, da sie sowohl Schutz als auch Risiken für die Privatsphäre mit sich bringen können.

Tom Jacobs, Chao Zhou, Rebekka Burkholz untersuchen, warum moderne Optimierungsverfahren wie Adam in der Praxis oft besser funktionieren als klassisches Gradientenverfahren (SGD), insbesondere beim Feinjustieren von KI-Modellen. Im Zentrum steht die Frage, wie sogenannte Überparametrisierung (sehr viele Modellparameter) und verschiedene Optimierungsalgorithmen das Lernergebnis beeinflussen.

Die Autor:innen analysieren eine verallgemeinerte Klasse von Optimierungsverfahren („steepest descent“) und zeigen, dass sich deren Verhalten durch eine geometrische Perspektive („mirror flow“) beschreiben lässt. Diese bestimmt, welche Lösungen ein Modell bevorzugt. Ein zentrales Ergebnis ist, dass unterschiedliche Verfahren systematisch unterschiedliche implizite „Vorlieben“ (Bias) haben, etwa hin zu besonders einfachen oder sparsamen Lösungen.

Ein wichtiger Befund betrifft sogenannte Sattelpunkte – flache Bereiche in der Optimierung, in denen Lernverfahren stecken bleiben können. Die Analyse zeigt, dass bestimmte Verfahren (insbesondere sign-basierte Methoden, die Adam ähneln) solche Punkte leichter verlassen können als klassisches Gradientendeszendenzverfahren mit kleiner Lernrate. Dadurch lernen Modelle oft effizienter weiter.

Zudem hängt die Wirkung stark von der Tiefe der Modellstruktur ab: Bei größerer Tiefe können einige Verfahren sparsamer werden, also nur relevante Merkmale nutzen, während andere darunter leiden. Experimente mit vereinfachten neuronalen Netzen und praktischen Anwendungen (z. B. Bild- und Sprachmodelle) bestätigen diese theoretischen Vorhersagen.

Insgesamt zeigt die Arbeit, dass nicht nur Daten und Modellarchitektur entscheidend sind, sondern auch die Wahl des Optimierungsverfahrens die Eigenschaften der gelernten Lösung prägt.

Die Forschung trägt dazu bei, Trainingsverfahren für KI besser zu verstehen und gezielter auszuwählen. Das kann langfristig helfen, Modelle effizienter, robuster und ressourcenschonender zu entwickeln, ohne jedoch grundlegende Grenzen der KI-Methoden zu verändern.

Jan Kociszewski, Hubert Jastrzębski, Tymoteusz Stępkowski, Filip Manijak, Krzysztof Rojek, Franziska Boenisch und Adam Dziedzic stellen mit „SERUM“ eine neue Methode vor, um von KI erzeugte Bilder zuverlässig zu kennzeichnen. Ziel ist es, solche Bilder später von echten Fotos unterscheiden zu können, etwa um Missbrauch wie Deepfakes oder Verzerrungen in Trainingsdaten zu begrenzen.

Die Methode nutzt einen einfachen Ansatz: Beim Erzeugen eines Bildes wird ein spezielles, kaum sichtbares Rauschmuster in den Ausgangszufall eingebaut. Dieses Muster bleibt im fertigen Bild erhalten. Ein separater, leichtgewichtiger Detektor kann es später erkennen, ohne das Bild aufwendig rückwärts analysieren zu müssen.

Im Vergleich zu bisherigen Verfahren ist SERUM laut den Ergebnissen robuster gegenüber Veränderungen wie Zuschneiden, Komprimierung oder gezielten Versuchen, Wasserzeichen zu entfernen. In Tests erkannte das System die Markierung in über 99 % der Fälle bei gleichzeitig sehr niedriger Fehlalarmrate.

Ein weiterer Vorteil ist die Effizienz: Das Einfügen und Erkennen der Markierung benötigt wenig Rechenleistung und Zeit. Außerdem kann das Verfahren mehreren Nutzer:innen unterschiedliche Markierungen zuweisen, sodass sich Inhalte einzelnen Quellen zuordnen lassen.

Die Bildqualität bleibt dabei nahezu unverändert. Zudem zeigt sich, dass die Markierung auch dann teilweise erhalten bleibt, wenn solche Bilder später zum Training neuer Modelle verwendet werden.

Insgesamt liefert die Arbeit einen praktischen Beitrag zur Kennzeichnung von KI-generierten Bildern. Für die Gesellschaft könnte dies helfen, Transparenz zu erhöhen und digitale Inhalte besser einzuordnen, ohne die Nutzung solcher Technologien wesentlich einzuschränken.

Das Paper stellt mit „Terminal-Bench“ eine neue Testumgebung vor, mit der sich Fähigkeiten von KI-Agent:innen in realistischen Computeraufgaben untersuchen lassen. Die Aufgaben reichen von Datenverarbeitung über Softwareentwicklung bis hin zu Systemadministration und sind bewusst so gestaltet, dass sie mehrere Schritte, Entscheidungen und Fehlerkorrekturen erfordern.

Ein zentrales Ergebnis ist, dass heutige KI-Systeme bei solchen komplexen, längeren Aufgaben häufig scheitern. Die Analyse zeigt typische Fehlermuster: Systeme halten sich nicht an Vorgaben, wiederholen unnötig Schritte, verlieren den Kontext oder brechen Aufgaben zu früh ab. Besonders häufig sind auch Probleme bei der Überprüfung eigener Ergebnisse – entweder wird gar nicht geprüft oder die Prüfung ist unzureichend.

Um diese Fehler besser zu verstehen, entwickeln sie eine detaillierte Taxonomie, also ein Klassifikationssystem für Fehlverhalten. Diese unterscheidet unter anderem zwischen Ausführungsfehlern, logischen Inkonsistenzen und mangelhafter Verifikation.

Zusätzlich zeigen die Ergebnisse, dass viele Fehler auf strukturelle Probleme zurückgehen, etwa unklare Aufgabenstellungen oder unzureichende Tests. Automatisierte Prüfwerkzeuge können einen Teil dieser Probleme früh erkennen und reduzieren.

Insgesamt macht die Studie deutlich, dass Fortschritte bei KI nicht nur von besseren Modellen abhängen, sondern auch von besseren Tests und klareren Bewertungsmethoden. Für die Gesellschaft bedeutet das: Solche Forschung hilft dabei, KI-Systeme zuverlässiger und transparenter zu machen, etwa in Softwareentwicklung oder Datenanalyse. Gleichzeitig zeigt sie realistisch, dass aktuelle Systeme noch Grenzen haben, insbesondere bei komplexen, mehrstufigen Aufgaben.

Das Paper untersucht, warum neuronale Netze empfindlich auf kleine Störungen in den Eingangsdaten reagieren (sogenannte adversariale Beispiele) und liefert eine theoretische Erklärung für dieses Verhalten. Das zentrale Konzept ist die „relative Schärfe“, ein Maß dafür, wie stark sich der Verlust eines Modells verändert, wenn seine Parameter leicht gestört werden.

Nils Walter, Linara Adilova (Ruhr-Universität Bochum), Jilles Vreeken und Michael Kamp (Lamarr) leiten zunächst einen mathematischen Ausdruck für die Krümmung der Verlustlandschaft (die Hesse-Matrix) in Klassifikationsmodellen her. Diese Analyse zeigt, dass die Schärfe von drei zentralen Faktoren abhängt: der Konfidenz der Vorhersagen, der Skala interner Merkmalsrepräsentationen und der Größe der Modellgewichte. Ein wichtiges Ergebnis ist, dass sich diese Größe effektiv an der letzten Schicht des Netzwerks analysieren lässt.

Anschließend zeigen sie, dass kleine Störungen in den Eingaben als entsprechende Störungen in den Modellgewichten dargestellt werden können. Darauf aufbauend leiten sie eine obere Schranke dafür her, wie stark der Verlust unter solchen Störungen ansteigen kann. Diese Schranke wird direkt durch die relative Schärfe bestimmt: Modelle mit flacheren Verlustlandschaften sind weniger empfindlich, während schärfere Modelle anfälliger sind.

Diese Ergebnisse liefern eine theoretische Grundlage für eine bekannte empirische Beobachtung: Flachere Modelle generalisieren tendenziell besser und sind robuster gegenüber adversarialen Eingaben. Die Arbeit klärt außerdem, unter welchen Bedingungen gängige Verlustfunktionen diese Eigenschaften unterstützen oder verletzen.

Insgesamt verbessert die Arbeit das theoretische Verständnis der Zuverlässigkeit von KI-Systemen. Sie bietet keine unmittelbare praktische Lösung, identifiziert jedoch zentrale mathematische Eigenschaften, die mit Robustheit verknüpft sind. Für die Gesellschaft stellt dies einen schrittweisen Fortschritt hin zu zuverlässigeren KI-Anwendungen dar, insbesondere in sicherheitskritischen Bereichen wie dem Gesundheitswesen oder autonomen Systemen, ohne die unmittelbaren Auswirkungen zu überbewerten.

Das Paper untersucht, warum maschinelle Lernmodelle oft schlechter funktionieren, wenn sie auf neue Daten angewendet werden, die sich von den Trainingsdaten unterscheiden. Im Fokus steht dabei sogenanntes „hidden confounding“ – unbeobachtete Einflussfaktoren, die sowohl Eingabedaten als auch Zielgrößen beeinflussen und sich zwischen verschiedenen Umgebungen verändern können.

Gowtham Reddy Abbavaram, Celia Rubio Madrigal, Rebekka Burkholz und Krikamol Muandet
zeigen theoretisch und empirisch, dass solche verdeckten Störfaktoren zentrale Annahmen vieler gängiger Methoden verletzen. Statt stabiler, allgemeingültiger Zusammenhänge entstehen verzerrte Beziehungen, wodurch Modelle falsche Muster lernen.

Ein zentrales Ergebnis ist, dass Modelle nicht allein auf „invariante“ (also unveränderliche) Zusammenhänge setzen sollten. Vielmehr müssen sie auch umgebungsspezifische Beziehungen berücksichtigen, um zuverlässig zu generalisieren.

Überraschend zeigt die Studie außerdem, dass zusätzliche Variablen – selbst wenn sie nicht kausal für das Ergebnis sind – die Modellleistung verbessern können, sofern sie informative Hinweise enthalten. Solche Variablen können helfen, versteckte Einflussfaktoren indirekt zu erfassen und so die Vorhersage zu stabilisieren.

Experimente mit realen und synthetischen Datensätzen bestätigen diese Ergebnisse: Modelle schneiden besser ab, wenn sie mehr informative Merkmale einbeziehen, da sich dadurch die Vorhersageinformation erhöht und problematische Verschiebungen teilweise ausgeglichen werden.
Die Arbeit verdeutlicht jedoch auch Grenzen: Sie bietet keine direkte Lösung für das Problem, sondern lediglich eine Erklärung.

Insgesamt trägt die Forschung dazu bei, besser zu verstehen, warum KI-Modelle in der Praxis oft scheitern, wenn sich Datenbedingungen ändern. Für die Gesellschaft bedeutet das vor allem eine fundiertere Grundlage, um zuverlässigere Systeme etwa in Medizin, Verwaltung oder Wirtschaft zu entwickeln – ohne dabei zu suggerieren, dass das Problem bereits gelöst ist.

Xiaowen Jiang, Anton Rodomanov und Sebastian Stich untersuchen, wie sich verteilte Lernverfahren – insbesondere sogenanntes föderiertes Lernen – effizienter gestalten lassen. Dabei trainieren viele Geräte gemeinsam ein Modell, ohne ihre Daten zu teilen. Ein zentrales Problem ist die Kommunikation zwischen den Geräten und einem Server, die oft langsam oder teuer ist.

Sie zeigen, dass bisherige Vergleiche von Optimierungsverfahren diese Kommunikationskosten unzureichend berücksichtigen, insbesondere wenn unterschiedliche Strategien zur Auswahl beteiligter Geräte genutzt werden. Deshalb entwickeln sie ein neues Modell, das Kommunikations- und Rechenaufwand realistisch bewertet und verschiedene Auswahlstrategien vergleichbar macht.

Auf dieser Grundlage stellen sie einen neuen Algorithmus vor, der für nicht-konvexe Optimierungsprobleme besonders effizient ist. Dieser kombiniert bekannte Methoden zur Gradientenberechnung mit einer neuen Technik („Recursive Gradient“), die Fehler reduziert und vorhandene Ähnlichkeiten zwischen den Daten auf verschiedenen Geräten besser nutzt. Dadurch sinkt sowohl der Kommunikationsaufwand als auch die lokale Rechenlast im Vergleich zu bestehenden Verfahren.

Zusätzlich liefern sie theoretische Garantien für die Leistungsfähigkeit ihres Ansatzes und bestätigen diese durch Experimente. Dabei zeigt sich, dass ihre Methode unter realistischen Bedingungen oft weniger Kommunikation benötigt als etablierte Verfahren, ohne an Genauigkeit zu verlieren.

Die Arbeit trägt dazu bei, verteiltes maschinelles Lernen effizienter und praktikabler zu machen, etwa für Anwendungen auf Smartphones oder in der Medizin. Der gesellschaftliche Nutzen liegt vor allem in einer besseren Skalierbarkeit solcher Systeme bei gleichzeitiger Wahrung von Datenschutz. Allerdings handelt es sich um eine methodische Grundlagenarbeit, deren konkrete Auswirkungen stark von der späteren Umsetzung in realen Anwendungen abhängen.

Das Paper von Slavomír Hanzely, Farshed Abdukhakimov (Mohammed bin Zayed University of Artificial Intelligence) und Martin Takáč (Mohammed bin Zayed University of Artificial Intelligence) untersucht eine klassische Methode der numerischen Optimierung, das Newton-Verfahren, und entwickelt neue Varianten mit verbesserten globalen Konvergenzeigenschaften. Ziel ist es, zuverlässiger Lösungen zu finden, auch wenn der Startpunkt weit vom Optimum entfernt ist.

Sie zeigen, dass sich das Newton-Verfahren durch geeignete Schrittweiten („Stepsizes“) deutlich stabiler und schneller machen lässt. Besonders neu ist der Ansatz, Annahmen über die dritte Ableitung der Zielfunktion zu nutzen. Dadurch erreichen sie eine theoretische Konvergenzrate von bis zu O(k⁻³), was eine Verbesserung gegenüber bisherigen Methoden darstellt, die typischerweise bei O(k⁻²) lagen.

Zusätzlich entwickeln sie Verfahren, die ohne genaue Kenntnis von Glattheitsparametern auskommen. Diese nutzen adaptive Strategien wie Line Search oder Backtracking und erreichen dennoch vergleichbare Konvergenzraten wie optimal eingestellte Methoden. Außerdem liefern sie erstmals theoretische Garantien für eine in der Praxis verbreitete Variante des Newton-Verfahrens mit exakter Line Search.

Experimentelle Ergebnisse zeigen, dass die vorgeschlagenen Methoden in vielen Fällen schneller konvergieren als bestehende Ansätze, insbesondere bei schwierigen Optimierungsproblemen.

Die Arbeit trägt dazu bei, numerische Optimierungsverfahren robuster und effizienter zu machen. Da solche Verfahren eine zentrale Rolle in Bereichen wie maschinellem Lernen, Ingenieurwesen oder Datenanalyse spielen, kann die Forschung langfristig dazu beitragen, komplexe Modelle zuverlässiger und mit weniger Rechenaufwand zu trainieren.

Die Zusammenfassungen wurden mit Hilfe von Künstlicher Intelligenz erstellt.

Benchmarking Empirical Privacy Protection for Adaptations of Large Language Models

Boosting for Predictive Sufficiency

Composite Optimization with Error Feedback: the Dual Averaging Approach

Curation Leaks: Membership Inference Attacks against Data Curation for Machine Learning

DADA: Dual Averaging with Distance Adaptation

Data Provenance for Image Auto-Regressive Generation

Explainable Mixture Models through Differentiable Rule Learning

FedMuon: Federated Learning with Bias-corrected LMO-based Optimization

Flowing Through States: Neural ODE Regularization for Reinforcement Learning

Hyperbolic Aware Minimization: Implicit Bias for Sparsity

Interpretable 3D Neural Object Volumes For Robust Conceptual Reasoning

Monotone Near-Zero-Sum Games: A Generalization of Convex-Concave Minimax

Natural Identifiers for Privacy and Data Audits in Large Language Models

Never Saddle Down for Reparameterized Steepest Descent as Mirror Flow

SERUM: Simple, Efficient, Robust, and Unifying Marking for Diffusion-based Image Generation

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

When Flatness Does (Not) Guarantee Adversarial Robustness

When Shift Happens - Confounding Is to Blame

Non-Convex Federated Optimization under Cost-Aware Client Selection

Newton Method Revisited: Global Convergence Rates up to O(k^-3) for Stepsize Schedules and Linesearch Procedures