LLMs als Waffe: Neue Ära der Cyberbedrohung
Die rasante Entwicklung von Künstlicher Intelligenz, insbesondere von Large Language Models (LLMs) …

Evasion Attacks auf LLMs: Ein Leitfaden des BSI zur Abwehr von Prompt Injections und Jailbreaks
Große Sprachmodelle (LLMs) haben sich in vielen Bereichen von der Kundenbetreuung bis zur Softwareentwicklung etabliert, bringen jedoch auch neue Sicherheitsrisiken mit sich. Eine wachsende und subtile Bedrohung stellen sogenannte Evasion Attacks (Ausweichangriffe) dar. Dabei versuchen Angreifer, das Modell während des Betriebs zu manipulieren, um unerwünschte oder gefährliche Verhaltensweisen zu provozieren. In der Fachliteratur werden diese Angriffe häufig auch als (indirekte) Prompt Injections, Jailbreaks oder Adversarial Attacks bezeichnet.
Das Hauptproblem: LLMs sind auf eine flexible Reaktion auf vielfältige Eingaben ausgelegt, was ihre Angriffsfläche vergrößert. Ziel eines erfolgreichen Angriffs ist die Umgehung von Sicherheitsbeschränkungen, was zur Generierung bösartiger Inhalte, der Exfiltration sensibler Daten oder einer Systemstörung führen kann.
Evasion Attacks lassen sich anhand ihres Mechanismus in zwei Hauptkategorien unterteilen:
| Angriffs-Kategorie | Beschreibung | Beispiele |
|---|---|---|
| Kohärenter Text | Verwendet semantisch und syntaktisch korrekte Anweisungen, um das LLM direkt oder indirekt aus seiner Rolle zu drängen. | Naive Attack , Context-Ignoring Attack , Role Play Attack , Multi-Turn Manipulation (schrittweise Beeinflussung über mehrere Interaktionen). |
| Inkohärenter Text | Nutzt für Menschen unverständliche Zeichenfolgen oder willkürliche Kompositionen, um unvorhersehbares oder zielgerichtetes Verhalten zu erzielen. | Escape Character Attacks , Obfuscation Attack (z. B. Base64-Kodierung) , Adversarial Suffix Attack (Anhängen scheinbar zufälliger, aber gezielt erstellter Strings). |
Verbergen des Angriffs: Angreifer nutzen zudem Attack Steganography, um ihre bösartigen Anweisungen zu verstecken, z. B. durch:
Unsichtbare Schriftfarbe.
\
Verbergen in Metadaten oder Protokollen.
\
Verwendung von Archivformaten (ZIP/RAR).
\
Angriffe können über verschiedene Einstiegspunkte in das LLM-System gelangen, wie den Benutzer-Prompt, Benutzerdaten, Logs oder zugängliche Datenbanken.
Das Bundesamt für Sicherheit in der Informationstechnik (BSI) empfiehlt Gegenmaßnahmen, die auf vier hierarchischen Ebenen in die LLM-Systemarchitektur integriert werden sollten:
Diese Ebene konzentriert sich auf die direkte Härtung des Sprachmodells und die Verarbeitung der Nutzereingaben:
| Maßnahme (Abk.) | Beschreibung und Zweck |
|---|---|
| Guardrails & Filtering | Überprüfung von Ein- und Ausgaben des LLM, um bösartige Inhalte frühzeitig zu erkennen und zu blockieren. Sollte vor und nach der LLM-Verarbeitung erfolgen. |
| Sichere Prompt-Techniken (SPTE) | Verwendung von Structured Prompts (SP) oder Delimiter-based Isolation (DBI) – klare Trennung von Systemanweisungen und Benutzerdaten (z. B. durch spezielle Tokens oder XML-Tags). |
| Model Alignment (MFT) | Anpassung des LLM, um es widerstandsfähiger zu machen, z. B. durch **Adversarial Training (AT)**oder Reinforcement Learning from Human Feedback (RLHF). |
Hier werden Maßnahmen zum Schutz der Ausführungsumgebung und zur Begrenzung von Schadwirkungen ergriffen:
Diese Ebene umfasst die sichere Gestaltung der Schnittstellen und des Gesamtsystems:
Diese Ebene regelt die Governance und die organisatorischen Maßnahmen im Umgang mit LLMs:
Incident Response: Entwicklung klarer Prozesse für den Umgang mit erkannten Sicherheitsvorfällen und erfolgreichen Evasion Attacks.
Derzeit gibt es keine einzige “Bullet-Proof”-Lösung zur vollständigen Abwehr von Evasion Attacks. Marktführer setzen auf einen mehrschichtigen Ansatz (Defense-in-Depth).
Entwickler und IT-Sicherheitsbeauftragte sollten das Thema durch eine systematische Risikoanalyse angehen, die in einer Checkliste mündet. Das BSI schlägt einen Baseline Security Approach als Startpunkt vor. Dieser umfasst Maßnahmen wie: MAPM (Model Action Privilege Minimization), LR (Labels and Reasoning of Data and Action) und SP (Structured Prompts).
Die Auswahl der geeigneten Gegenmaßnahmen hängt letztlich vom spezifischen Anwendungsfall, den verfügbaren Ressourcen und der akzeptierten Risikobewertung ab.
Checkliste des BSI:
Die rasante Entwicklung von Künstlicher Intelligenz, insbesondere von Large Language Models (LLMs) …
TL;DR Die Gateway API Inference Extension wurde entwickelt, um die spezifischen Anforderungen an das …