Das Frankfurt-Dilemma: Warum Standort-Redundanz für KRITIS nicht ausreicht
David Hussain 3 Minuten Lesezeit

Das Frankfurt-Dilemma: Warum Standort-Redundanz für KRITIS nicht ausreicht

Wer kritische Infrastrukturen (KRITIS) betreibt, investiert massiv in Ausfallsicherheit. Meist endet diese Planung jedoch an der Grundstücksgrenze des Rechenzentrums. Ein typisches Setup in Frankfurt oder Berlin sieht so aus: redundante Stromzuführung, zwei Brandabschnitte, ein hochverfügbarer Kubernetes-Cluster über mehrere Racks und replizierte Datenbanken.

Wer kritische Infrastrukturen (KRITIS) betreibt, investiert massiv in Ausfallsicherheit. Meist endet diese Planung jedoch an der Grundstücksgrenze des Rechenzentrums. Ein typisches Setup in Frankfurt oder Berlin sieht so aus: redundante Stromzuführung, zwei Brandabschnitte, ein hochverfügbarer Kubernetes-Cluster über mehrere Racks und replizierte Datenbanken.

Auf dem Papier erreicht man so eine Verfügbarkeit von 99,99 %. Doch für KRITIS-relevante Systeme ist das oft eine gefährliche Illusion. Denn dieses Modell basiert auf der Annahme, dass der Standort als Ganzes niemals fällt.

Die unsichtbare Gefahr: Der Single Point of Failure “Region”

Ein Standortausfall - sei es durch einen großflächigen Stromausfall, einen massiven Netzfehler beim Hauptprovider oder physische Ereignisse - hebelt jede interne Redundanz aus. Wenn das Rechenzentrum oder die Region offline geht, nützen auch zehn Replikas einer Datenbank nichts, wenn sie alle im selben Viertel stehen.

Für Betreiber von Strom-, Gas- oder Wärmenetzen sowie Finanzdienstleister ist das kein theoretisches Szenario, sondern ein regulatorisches Risiko. Audits nach NIS-2 oder dem BSI-Gesetz fordern zunehmend den Nachweis, dass Dienste auch dann weiterlaufen, wenn ein kompletter geografischer Knotenpunkt verschwindet.


Die Lösung: Von der Redundanz zur Georedundanz

Um echte Resilienz zu erreichen, muss die Architektur den Standort verlassen. Der Weg führt weg von der “einen Festung” hin zu einem verteilten System. Ein belastbarer Lösungsansatz besteht aus drei Säulen:

1. Entkoppelte Cluster statt gestreckter Systeme

Anstatt einen einzelnen Kubernetes-Cluster mühsam über zwei Städte zu spannen („Stretched Cluster"), hat es sich bewährt, pro Region einen vollständig autarken Cluster zu betreiben. Das begrenzt den sogenannten Blast Radius: Ein Softwarefehler oder ein Konfigurationsproblem in Region A kann Region B nicht mit in den Abgrund reißen.

2. Aktiv/Aktiv-Betrieb statt kalter Backups

Ein Disaster-Recovery-Standort, der nur im Notfall hochgefahren wird, funktioniert im Ernstfall meistens nicht. Eine moderne KRITIS-Architektur nutzt beide Standorte gleichzeitig (Aktiv/Aktiv). Der Traffic wird permanent über beide Regionen verteilt. Das stellt sicher, dass die Infrastruktur an jedem Standort zu jeder Sekunde unter realer Last getestet ist.

3. Intelligentes Routing auf Netzwerkebene

Damit Nutzer und verbundene Systeme (z. B. SCADA-Leittechnik) im Fehlerfall nicht auf manuelle Eingriffe warten müssen, wird das Failover in das Netzwerk verlagert. Durch Techniken wie Anycast-Routing via BGP erkennt das globale Netzwerk selbstständig, wenn ein Standort nicht mehr erreichbar ist, und leitet den Datenverkehr in Millisekunden an den gesunden Standort um - ohne dass IP-Adressen oder DNS-Einträge geändert werden müssen.


Fazit: Resilienz ist eine Standortfrage

Wahre Ausfallsicherheit für kritische Systeme beginnt dort, wo die Abhängigkeit vom einzelnen Rechenzentrum endet. Wer heute Infrastruktur plant, sollte Georedundanz nicht als “Zusatzoption” für später betrachten, sondern als das architektonische Fundament. Nur wer nachweisbar belegen kann, dass ein regionaler Totalausfall die Dienstgüte nicht gefährdet, erfüllt die hohen Anforderungen moderner Regulatorik.


FAQ

Warum reicht ein Backup im zweiten Rechenzentrum nicht aus? Ein Backup sichert die Daten, aber nicht die Verfügbarkeit. Das Einspielen von Backups und das manuelle Umschalten von DNS-Einträgen dauert oft Stunden. KRITIS-Anforderungen verlangen meist Wiederherstellungszeiten (RTO) im Minuten- oder Sekundenbereich, was nur durch aktiv mitlaufende Systeme erreichbar ist.

Erhöht Multi-Region-Betrieb nicht massiv die Komplexität? Die Komplexität steigt in der Tat, lässt sich aber durch moderne Orchestrierungstools und GitOps-Workflows beherrschen. Der Gewinn an Sicherheit und die Möglichkeit, Wartungsarbeiten im laufenden Betrieb durchzuführen, überwiegen für kritische Systeme fast immer den administrativen Mehraufwand.

Gibt es Mindestanforderungen an die Distanz zwischen den Standorten? Ja, das BSI empfiehlt für georedundante Setups oft eine Mindestdistanz (z. B. 100 km bis 200 km), um sicherzustellen, dass großflächige Katastrophen nicht beide Standorte gleichzeitig betreffen. Die genauen Anforderungen hängen jedoch von der spezifischen Regulatorik (z. B. KritisV) ab.

Was ist der Unterschied zwischen Hochverfügbarkeit und Disaster Recovery? Hochverfügbarkeit schützt vor dem Ausfall einzelner Komponenten (z. B. Server oder Festplatte). Disaster Recovery (und Georedundanz) schützt vor katastrophalen Ereignissen, die ganze Infrastrukturen oder Standorte lahmlegen.

Ähnliche Artikel