Cisco Talos enthüllt Decomposition-Angriff: LLMs geben Training-Daten preis

TL;DR: Cisco Talos Forscherin Amy Chang präsentiert auf der Black Hat 2025 die “Decomposition”-Technik, die LLMs systematisch dazu bringt, exakte Fragmente ihrer Trainingsdaten preiszugeben - ein Game-Changer für AI-Sicherheit und Datenschutz.

Amy Chang von Cisco Talos hat auf der Black Hat 2025 eine Methode vorgestellt, die die AI-Security-Community aufschreckt: Mit der sogenannten “Decomposition”-Technik können Large Language Models (LLMs) dazu gebracht werden, wörtliche Fragmente ihrer Trainingsdaten preiszugeben - inklusive urheberrechtlich geschützter oder sensibler Informationen.

Die wichtigsten Fakten

📅 Zeitpunkt: Präsentation auf der Black Hat 2025 (August)
🎯 Zielgruppe: Alle LLM-basierten Systeme potentiell betroffen
🔧 Technologie: Decomposition-Angriff nutzt inhärente Memorization-Schwäche
📊 Impact: Mögliche Extraktion von proprietären und sensiblen Daten
🏢 Entdecker: Amy Chang, Cisco Talos Security Research

Was ist neu?

Die Decomposition-Technik unterscheidet sich fundamental von herkömmlichen Jailbreaking-Methoden. Während Jailbreaks darauf abzielen, Content-Filter zu umgehen, greift Decomposition die Kern-Memorization an, die in LLMs eingebaut ist.

Kernfunktionen im Überblick

Die Decomposition-Methode

Zerlegt komplexe Prompts in einfachere, iterative Anfragen
Nutzt systematische Abfragen, um gespeicherte Trainingsdaten zu extrahieren
Funktioniert bei mehreren populären AI-Modellen
Kann verbatim Textfragmente aus dem Training-Korpus rekonstruieren

Memorization-Vulnerability

LLMs speichern unbeabsichtigt exakte Inhalte statt nur generalisierte Muster
Modelle können dazu gebracht werden, diese Inhalte wörtlich wiederzugeben
Betrifft potentiell alle aktuellen LLM-Architekturen
Schwer zu patchen ohne fundamentale Architektur-Änderungen

Technische Details

Die Decomposition-Attacke nutzt eine Art Inversion Attack, bei der:

Crafted Inputs: Speziell konstruierte Eingaben an das LLM gesendet werden
Output-Analyse: Die Antworten werden systematisch analysiert
Iterative Verfeinerung: Schrittweise Annäherung an die Trainingsdaten
Data Extraction: Rekonstruktion der originalen Trainingstexte

# Konzeptionelles Beispiel (vereinfacht)
def decomposition_attack(model, target_phrase):
    # Phase 1: Kontext etablieren
    context = generate_context_prompts(target_phrase)
    # Phase 2: Iterative Zerlegung
    for prompt in decompose_prompts(context):
        response = model.generate(prompt)
        if contains_training_data(response):
            extracted_data.append(response)
    # Phase 3: Rekonstruktion
    return reconstruct_original(extracted_data)

Vergleich mit bestehenden Angriffsmethoden

Feature	Decomposition	Jailbreaking	Prompt Injection
Ziel	Training-Daten extrahieren	Content-Filter umgehen	Verhalten manipulieren
Methode	Iterative Zerlegung	Clevere Umformulierung	Schädliche Instruktionen
Schwierigkeit	Hoch (technisch)	Mittel	Niedrig
Impact	Datenschutz-Verletzung	Policy-Verletzung	Funktions-Missbrauch
Patch-Aufwand	Sehr hoch	Mittel	Niedrig

Was bedeutet das für die Praxis?

Für Entwickler

Immediate Action: Review der verwendeten LLMs auf Memorization-Risiken
Training-Data Audit: Sensible Daten aus Trainingssets entfernen
Differential Privacy: Implementierung von Privacy-preserving Training-Methoden
Output Filtering: Zusätzliche Schichten zur Erkennung von Training-Data-Leaks

Für Unternehmen

Risiko-Assessment: Überprüfung welche sensiblen Daten in AI-Systemen verarbeitet werden
Compliance-Impact: DSGVO und andere Datenschutzregeln könnten verletzt werden
IP-Schutz: Proprietäre Informationen könnten durch LLMs exponiert werden
Strategische Überlegungen: Neubewerung des Einsatzes von Third-Party LLMs

Stimmen aus der Community

“Diese Entdeckung zeigt, dass wir bei LLM-Sicherheit noch am Anfang stehen. Die Implikationen für Datenschutz und IP-Schutz sind enorm.” — Security-Experte auf Twitter/X

Die AI-Security-Community diskutiert bereits intensiv über mögliche Gegenmaßnahmen und die langfristigen Auswirkungen dieser Entdeckung.

Roadmap & Ausblick

Kurzfristig (Q3 2025):

Entwicklung von Detection-Tools für Decomposition-Angriffe
Patches für besonders vulnerable Modelle

Mittelfristig (Q4 2025):

Neue Training-Methodologien mit eingebautem Privacy-Schutz
Industry-Standards für LLM-Memorization-Tests

Langfristig (2026+):

Fundamentale Architektur-Änderungen in nächster LLM-Generation
Regulatorische Anpassungen für AI-Training-Data

Verfügbarkeit & Tools

Research Paper: Wird nach der Black Hat Präsentation veröffentlicht
PoC Code: Aus Sicherheitsgründen noch unter Verschluss
Cisco Talos Advisory: Offizielle Security Advisory
Mitigation Guidelines: In Entwicklung durch Cisco Talos Team

Quick Links & Ressourcen

Fazit

Die Decomposition-Technik von Amy Chang markiert einen Wendepunkt in der LLM-Sicherheit. Sie zeigt, dass die inhärente Memorization in aktuellen Modellen nicht nur ein theoretisches, sondern ein praktisch ausnutzbares Sicherheitsrisiko darstellt. Unternehmen müssen jetzt handeln, um ihre sensiblen Daten zu schützen.

Next Steps für AI-Teams:

Audit der aktuell eingesetzten LLMs auf Memorization-Risiken
Review aller Trainingsdaten auf sensible Informationen
Implementierung von Output-Monitoring für Data-Leak-Detection
Entwicklung einer AI-Security-Strategie für 2025/2026

Letzte Aktualisierung: 10. August 2025 Quellen: Cisco Talos, Black Hat 2025, TechRepublic, WebProNews