Vernetzte Sicherheit: Wie Cluster Mesh Regionen ohne Risiko verbindet
In einer Multi-Region-Architektur stehen wir vor einem Paradoxon: Wir wollen die Cluster so weit …

In einer Multi-Region-Architektur ist die Verwaltung von Daten der “Endgegner”. Während sich zustandslose Applikationen (Stateless Services) problemlos über Standorte verteilen lassen, unterliegen Datenbanken den harten Gesetzen der Physik. Die Lichtgeschwindigkeit limitiert, wie schnell Informationen von Region A nach Region B reisen können.
Für KRITIS-Betreiber entsteht hier ein Dilemma: Wir brauchen maximale Datensicherheit (Konsistenz), dürfen aber die Antwortzeiten der Systeme (Performance) nicht opfern. Die Lösung liegt in einer differenzierten Replikationsstrategie, die zwischen lokaler Hochverfügbarkeit und globaler Ausfallsicherheit unterscheidet.
Man könnte versucht sein, alle Daten synchron zwischen Regionen zu spiegeln. Das bedeutet: Ein Schreibvorgang gilt erst dann als erfolgreich, wenn beide Standorte den Empfang bestätigt haben.
Um dieses Dilemma zu lösen, setzen wir auf ein Hybrid-Modell, das die Realität von Georedundanz akzeptiert: Synchron innerhalb der Region, asynchron zwischen den Regionen.
Innerhalb eines Standorts (z. B. zwischen drei verschiedenen Verfügbarkeitszonen/BSI-Brandabschnitten) erfolgt die Replikation synchron. Da die Distanzen hier minimal sind (Glasfaser im Kilometerbereich), ist die Latenz vernachlässigbar. Fällt ein Server oder ein Rack aus, sind die Daten sofort und ohne Verlust auf den anderen Knoten verfügbar.
Zwischen den geografisch weit entfernten Regionen (z. B. Frankfurt und Berlin) erfolgt die Replikation asynchron. Der Primärstandort bestätigt dem Nutzer den Schreibvorgang sofort und schickt die Datenkopie parallel im Hintergrund an die zweite Region.
Damit ein Umschwenken auf die zweite Region im Notfall reibungslos funktioniert, müssen auch Caches (wie Redis) und Message-Queues (wie RabbitMQ) in die Strategie einbezogen werden. Durch Techniken wie Federation stellen wir sicher, dass auch asynchrone Nachrichtenströme im Katastrophenfall nicht verloren gehen, sondern am anderen Standort “nachgeholt” werden.
Es gibt keine “One-Size-Fits-All”-Lösung für Daten in Multi-Region-Setups. Der Schlüssel liegt darin, die Kritikalität der Daten zu bewerten. Während Transaktionsdaten höchste Konsistenz benötigen, können Session-Daten oft flexibler gehandhabt werden. Eine kluge Kombination aus lokaler Synchronität und globaler Asynchronität ermöglicht eine KRITIS-konforme Architektur, die weder Sicherheit noch Nutzererlebnis opfert.
Wie viel Datenverlust droht bei asynchroner Replikation im Ernstfall? Bei einer stabilen Netzwerkverbindung liegt der Replikationsverzug (Lag) meist im Bereich von wenigen Millisekunden bis zu einer Sekunde. In einem extremen Katastrophenszenario (Totalausfall von Standort A) könnten also die Daten der letzten Sekunde fehlen. Für die meisten KRITIS-Anwendungsfälle ist dies zugunsten der Systemstabilität ein akzeptabler Trade-off.
Was ist “Point-in-Time Recovery” (PITR)? Zusätzlich zur Replikation werden kontinuierlich Transaktionslogs gesichert. PITR ermöglicht es, eine Datenbank auf einen exakten Zeitpunkt in der Vergangenheit zurückzusetzen. Das ist entscheidend, wenn nicht die Hardware ausfällt, sondern Daten durch Softwarefehler oder menschliches Versagen korrumpiert wurden.
Können Datenbanken aktiv/aktiv über Regionen hinweg betrieben werden? Ja, es gibt sogenannte “Multi-Master”-Datenbanken. Diese erhöhen jedoch die Komplexität massiv (Stichwort: Konfliktauflösung, wenn zwei Nutzer denselben Datensatz an verschiedenen Orten gleichzeitig ändern). Für die meisten KRITIS-Szenarien ist ein “Active/Passive”-Failover-Modell mit asynchroner Replikation die robustere und wartungsärmere Wahl.
Wie wird sichergestellt, dass Passwörter und Zertifikate überall gleich sind? Hierfür nutzen wir zentrale Secret-Management-Systeme (wie HashiCorp Vault), die ihre Daten ebenfalls über Regionen hinweg replizieren. So ist garantiert, dass der zweite Cluster im Notfall sofort über alle notwendigen Anmeldeinformationen verfügt, um den Betrieb zu übernehmen.
In einer Multi-Region-Architektur stehen wir vor einem Paradoxon: Wir wollen die Cluster so weit …
Wenn eine kritische Infrastruktur ausfällt, zählt jede Sekunde. Die Kennzahl dafür ist die RTO …
Wenn man eine DBaaS-Plattform skaliert, wird Storage schnell zum kritischsten Flaschenhals. …