TL;DR: Cisco Talos Forscherin Amy Chang präsentiert auf der Black Hat 2025 die “Decomposition”-Technik, die LLMs systematisch dazu bringt, exakte Fragmente ihrer Trainingsdaten preiszugeben - ein Game-Changer für AI-Sicherheit und Datenschutz.
Amy Chang von Cisco Talos hat auf der Black Hat 2025 eine Methode vorgestellt, die die AI-Security-Community aufschreckt: Mit der sogenannten “Decomposition”-Technik können Large Language Models (LLMs) dazu gebracht werden, wörtliche Fragmente ihrer Trainingsdaten preiszugeben - inklusive urheberrechtlich geschützter oder sensibler Informationen.
Die wichtigsten Fakten
- 📅 Zeitpunkt: Präsentation auf der Black Hat 2025 (August)
- 🎯 Zielgruppe: Alle LLM-basierten Systeme potentiell betroffen
- 🔧 Technologie: Decomposition-Angriff nutzt inhärente Memorization-Schwäche
- 📊 Impact: Mögliche Extraktion von proprietären und sensiblen Daten
- 🏢 Entdecker: Amy Chang, Cisco Talos Security Research
Was ist neu?
Die Decomposition-Technik unterscheidet sich fundamental von herkömmlichen Jailbreaking-Methoden. Während Jailbreaks darauf abzielen, Content-Filter zu umgehen, greift Decomposition die Kern-Memorization an, die in LLMs eingebaut ist.
Kernfunktionen im Überblick
Die Decomposition-Methode
- Zerlegt komplexe Prompts in einfachere, iterative Anfragen
- Nutzt systematische Abfragen, um gespeicherte Trainingsdaten zu extrahieren
- Funktioniert bei mehreren populären AI-Modellen
- Kann verbatim Textfragmente aus dem Training-Korpus rekonstruieren
Memorization-Vulnerability
- LLMs speichern unbeabsichtigt exakte Inhalte statt nur generalisierte Muster
- Modelle können dazu gebracht werden, diese Inhalte wörtlich wiederzugeben
- Betrifft potentiell alle aktuellen LLM-Architekturen
- Schwer zu patchen ohne fundamentale Architektur-Änderungen
Technische Details
Die Decomposition-Attacke nutzt eine Art Inversion Attack, bei der:
- Crafted Inputs: Speziell konstruierte Eingaben an das LLM gesendet werden
- Output-Analyse: Die Antworten werden systematisch analysiert
- Iterative Verfeinerung: Schrittweise Annäherung an die Trainingsdaten
- Data Extraction: Rekonstruktion der originalen Trainingstexte
# Konzeptionelles Beispiel (vereinfacht)
def decomposition_attack(model, target_phrase):
# Phase 1: Kontext etablieren
context = generate_context_prompts(target_phrase)
# Phase 2: Iterative Zerlegung
for prompt in decompose_prompts(context):
response = model.generate(prompt)
if contains_training_data(response):
extracted_data.append(response)
# Phase 3: Rekonstruktion
return reconstruct_original(extracted_data)
Vergleich mit bestehenden Angriffsmethoden
Feature | Decomposition | Jailbreaking | Prompt Injection |
---|---|---|---|
Ziel | Training-Daten extrahieren | Content-Filter umgehen | Verhalten manipulieren |
Methode | Iterative Zerlegung | Clevere Umformulierung | Schädliche Instruktionen |
Schwierigkeit | Hoch (technisch) | Mittel | Niedrig |
Impact | Datenschutz-Verletzung | Policy-Verletzung | Funktions-Missbrauch |
Patch-Aufwand | Sehr hoch | Mittel | Niedrig |
Was bedeutet das für die Praxis?
Für Entwickler
- Immediate Action: Review der verwendeten LLMs auf Memorization-Risiken
- Training-Data Audit: Sensible Daten aus Trainingssets entfernen
- Differential Privacy: Implementierung von Privacy-preserving Training-Methoden
- Output Filtering: Zusätzliche Schichten zur Erkennung von Training-Data-Leaks
Für Unternehmen
- Risiko-Assessment: Überprüfung welche sensiblen Daten in AI-Systemen verarbeitet werden
- Compliance-Impact: DSGVO und andere Datenschutzregeln könnten verletzt werden
- IP-Schutz: Proprietäre Informationen könnten durch LLMs exponiert werden
- Strategische Überlegungen: Neubewerung des Einsatzes von Third-Party LLMs
Stimmen aus der Community
“Diese Entdeckung zeigt, dass wir bei LLM-Sicherheit noch am Anfang stehen. Die Implikationen für Datenschutz und IP-Schutz sind enorm.” — Security-Experte auf Twitter/X
Die AI-Security-Community diskutiert bereits intensiv über mögliche Gegenmaßnahmen und die langfristigen Auswirkungen dieser Entdeckung.
Roadmap & Ausblick
Kurzfristig (Q3 2025):
- Entwicklung von Detection-Tools für Decomposition-Angriffe
- Patches für besonders vulnerable Modelle
Mittelfristig (Q4 2025):
- Neue Training-Methodologien mit eingebautem Privacy-Schutz
- Industry-Standards für LLM-Memorization-Tests
Langfristig (2026+):
- Fundamentale Architektur-Änderungen in nächster LLM-Generation
- Regulatorische Anpassungen für AI-Training-Data
Verfügbarkeit & Tools
- Research Paper: Wird nach der Black Hat Präsentation veröffentlicht
- PoC Code: Aus Sicherheitsgründen noch unter Verschluss
- Cisco Talos Advisory: Offizielle Security Advisory
- Mitigation Guidelines: In Entwicklung durch Cisco Talos Team
Quick Links & Ressourcen
- 📚 Cisco Talos Blog
- 🎥 Black Hat 2025 Recordings
- 💬 AI Security Community Discussion
- 📰 Original Announcement
Fazit
Die Decomposition-Technik von Amy Chang markiert einen Wendepunkt in der LLM-Sicherheit. Sie zeigt, dass die inhärente Memorization in aktuellen Modellen nicht nur ein theoretisches, sondern ein praktisch ausnutzbares Sicherheitsrisiko darstellt. Unternehmen müssen jetzt handeln, um ihre sensiblen Daten zu schützen.
Next Steps für AI-Teams:
- Audit der aktuell eingesetzten LLMs auf Memorization-Risiken
- Review aller Trainingsdaten auf sensible Informationen
- Implementierung von Output-Monitoring für Data-Leak-Detection
- Entwicklung einer AI-Security-Strategie für 2025/2026
Letzte Aktualisierung: 10. August 2025 Quellen: Cisco Talos, Black Hat 2025, TechRepublic, WebProNews