BSI: Leitfaden zur Vermeidung von Evasion Attacks auf LLMs

Evasion Attacks auf LLMs: Ein Leitfaden des BSI zur Abwehr von Prompt Injections und Jailbreaks

Große Sprachmodelle (LLMs) haben sich in vielen Bereichen von der Kundenbetreuung bis zur Softwareentwicklung etabliert, bringen jedoch auch neue Sicherheitsrisiken mit sich. Eine wachsende und subtile Bedrohung stellen sogenannte Evasion Attacks (Ausweichangriffe) dar. Dabei versuchen Angreifer, das Modell während des Betriebs zu manipulieren, um unerwünschte oder gefährliche Verhaltensweisen zu provozieren. In der Fachliteratur werden diese Angriffe häufig auch als (indirekte) Prompt Injections, Jailbreaks oder Adversarial Attacks bezeichnet.

Das Hauptproblem: LLMs sind auf eine flexible Reaktion auf vielfältige Eingaben ausgelegt, was ihre Angriffsfläche vergrößert. Ziel eines erfolgreichen Angriffs ist die Umgehung von Sicherheitsbeschränkungen, was zur Generierung bösartiger Inhalte, der Exfiltration sensibler Daten oder einer Systemstörung führen kann.

1. Die Angriffsmethoden: Kohärent vs. Inkohärent

Evasion Attacks lassen sich anhand ihres Mechanismus in zwei Hauptkategorien unterteilen:

Angriffs-Kategorie	Beschreibung	Beispiele
Kohärenter Text	Verwendet semantisch und syntaktisch korrekte Anweisungen, um das LLM direkt oder indirekt aus seiner Rolle zu drängen.	Naive Attack , Context-Ignoring Attack , Role Play Attack , Multi-Turn Manipulation (schrittweise Beeinflussung über mehrere Interaktionen).
Inkohärenter Text	Nutzt für Menschen unverständliche Zeichenfolgen oder willkürliche Kompositionen, um unvorhersehbares oder zielgerichtetes Verhalten zu erzielen.	Escape Character Attacks , Obfuscation Attack (z. B. Base64-Kodierung) , Adversarial Suffix Attack (Anhängen scheinbar zufälliger, aber gezielt erstellter Strings).

Verbergen des Angriffs: Angreifer nutzen zudem Attack Steganography, um ihre bösartigen Anweisungen zu verstecken, z. B. durch:

Unsichtbare Schriftfarbe.

\
Verbergen in Metadaten oder Protokollen.

\
Verwendung von Archivformaten (ZIP/RAR).

\

Angriffe können über verschiedene Einstiegspunkte in das LLM-System gelangen, wie den Benutzer-Prompt, Benutzerdaten, Logs oder zugängliche Datenbanken.

2. Praktische Gegenmaßnahmen für sichere LLM-Systeme

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) empfiehlt Gegenmaßnahmen, die auf vier hierarchischen Ebenen in die LLM-Systemarchitektur integriert werden sollten:

Ebene 1: System- und LLM-Ebene (Technischer Kernschutz)

Diese Ebene konzentriert sich auf die direkte Härtung des Sprachmodells und die Verarbeitung der Nutzereingaben:

Maßnahme (Abk.)	Beschreibung und Zweck
Guardrails & Filtering	Überprüfung von Ein- und Ausgaben des LLM, um bösartige Inhalte frühzeitig zu erkennen und zu blockieren. Sollte vor und nach der LLM-Verarbeitung erfolgen.
Sichere Prompt-Techniken (SPTE)	Verwendung von Structured Prompts (SP) oder Delimiter-based Isolation (DBI) – klare Trennung von Systemanweisungen und Benutzerdaten (z. B. durch spezielle Tokens oder XML-Tags).
Model Alignment (MFT)	Anpassung des LLM, um es widerstandsfähiger zu machen, z. B. durch Adversarial Training (AT)oder Reinforcement Learning from Human Feedback (RLHF).

Ebene 2: Daten- und Ausführungsebene (Integrität und Isolation)

Hier werden Maßnahmen zum Schutz der Ausführungsumgebung und zur Begrenzung von Schadwirkungen ergriffen:

Sandboxing (SB): Isolierung von Systemprozessen, um zu verhindern, dass ein erfolgreicher Angriff auf eine Komponente das gesamte System beeinträchtigt oder Zugriff auf kritische Ressourcen erhält.
Least Privilege Principle (LPP): Das LLM erhält nur die minimal notwendigen Berechtigungen zur Ausführung seiner Aufgaben.

Ebene 3: Externe Interaktions-Ebene (Architektonische Sicherheit)

Diese Ebene umfasst die sichere Gestaltung der Schnittstellen und des Gesamtsystems:

Sichere Designmuster: Implementierung von strukturellen Strategien wie dem “Dual LLM”-Muster (Trennung eines privilegierten von einem zur Verarbeitung unvertrauenswürdiger Daten quarantänierten LLM) oder dem “Plan-then-Execute”-Muster (Zerlegung komplexer Aufgaben in überprüfbare Unterschritte).
MAPM (Model Action Privilege Minimization): Spezifische Begrenzung der Aktionen, die das LLM auslösen kann, auf das für den Anwendungsfall absolut notwendige Minimum.

Ebene 4: Organisations- und Management-Ebene (Richtlinien und Prozesse)

Diese Ebene regelt die Governance und die organisatorischen Maßnahmen im Umgang mit LLMs:

Labels and Reasoning (LR): Sicherstellen, dass vom LLM generierte Daten klar gekennzeichnet werden (z. B. durch Watermarking). Zudem sollte die Datenbasis für Entscheidungen transparent und nachvollziehbar sein.

Incident Response: Entwicklung klarer Prozesse für den Umgang mit erkannten Sicherheitsvorfällen und erfolgreichen Evasion Attacks.

3. Fazit: Der Weg zur Systemhärtung

Derzeit gibt es keine einzige “Bullet-Proof”-Lösung zur vollständigen Abwehr von Evasion Attacks. Marktführer setzen auf einen mehrschichtigen Ansatz (Defense-in-Depth).

Entwickler und IT-Sicherheitsbeauftragte sollten das Thema durch eine systematische Risikoanalyse angehen, die in einer Checkliste mündet. Das BSI schlägt einen Baseline Security Approach als Startpunkt vor. Dieser umfasst Maßnahmen wie: MAPM (Model Action Privilege Minimization), LR (Labels and Reasoning of Data and Action) und SP (Structured Prompts).

Die Auswahl der geeigneten Gegenmaßnahmen hängt letztlich vom spezifischen Anwendungsfall, den verfügbaren Ressourcen und der akzeptierten Risikobewertung ab.

Quelle: https://www.bsi.bund.de/DE/Service-Navi/Presse/Alle-Meldungen-News/Meldungen/Evasion-Attacks-LLM_251110.html

Checkliste des BSI:

https://www.bsi.bund.de/SharedDocs/Downloads/EN/BSI/KI/Evasion_Attacks_on_LLMs-Checklist.pdf?__blob=publicationFile&v=4

container devops cloud-native