Infrastruktur als Code: Wie GitOps den Betrieb komplexer Video-Plattformen beherrschbar macht
In der modernen IT-Welt ist Video die Königsdisziplin. Eine hochperformante Video-Infrastruktur …

Wer kritische Infrastrukturen (KRITIS) betreibt, investiert massiv in Ausfallsicherheit. Meist endet diese Planung jedoch an der Grundstücksgrenze des Rechenzentrums. Ein typisches Setup in Frankfurt oder Berlin sieht so aus: redundante Stromzuführung, zwei Brandabschnitte, ein hochverfügbarer Kubernetes-Cluster über mehrere Racks und replizierte Datenbanken.
Auf dem Papier erreicht man so eine Verfügbarkeit von 99,99 %. Doch für KRITIS-relevante Systeme ist das oft eine gefährliche Illusion. Denn dieses Modell basiert auf der Annahme, dass der Standort als Ganzes niemals fällt.
Ein Standortausfall - sei es durch einen großflächigen Stromausfall, einen massiven Netzfehler beim Hauptprovider oder physische Ereignisse - hebelt jede interne Redundanz aus. Wenn das Rechenzentrum oder die Region offline geht, nützen auch zehn Replikas einer Datenbank nichts, wenn sie alle im selben Viertel stehen.
Für Betreiber von Strom-, Gas- oder Wärmenetzen sowie Finanzdienstleister ist das kein theoretisches Szenario, sondern ein regulatorisches Risiko. Audits nach NIS-2 oder dem BSI-Gesetz fordern zunehmend den Nachweis, dass Dienste auch dann weiterlaufen, wenn ein kompletter geografischer Knotenpunkt verschwindet.
Um echte Resilienz zu erreichen, muss die Architektur den Standort verlassen. Der Weg führt weg von der “einen Festung” hin zu einem verteilten System. Ein belastbarer Lösungsansatz besteht aus drei Säulen:
Anstatt einen einzelnen Kubernetes-Cluster mühsam über zwei Städte zu spannen („Stretched Cluster"), hat es sich bewährt, pro Region einen vollständig autarken Cluster zu betreiben. Das begrenzt den sogenannten Blast Radius: Ein Softwarefehler oder ein Konfigurationsproblem in Region A kann Region B nicht mit in den Abgrund reißen.
Ein Disaster-Recovery-Standort, der nur im Notfall hochgefahren wird, funktioniert im Ernstfall meistens nicht. Eine moderne KRITIS-Architektur nutzt beide Standorte gleichzeitig (Aktiv/Aktiv). Der Traffic wird permanent über beide Regionen verteilt. Das stellt sicher, dass die Infrastruktur an jedem Standort zu jeder Sekunde unter realer Last getestet ist.
Damit Nutzer und verbundene Systeme (z. B. SCADA-Leittechnik) im Fehlerfall nicht auf manuelle Eingriffe warten müssen, wird das Failover in das Netzwerk verlagert. Durch Techniken wie Anycast-Routing via BGP erkennt das globale Netzwerk selbstständig, wenn ein Standort nicht mehr erreichbar ist, und leitet den Datenverkehr in Millisekunden an den gesunden Standort um - ohne dass IP-Adressen oder DNS-Einträge geändert werden müssen.
Wahre Ausfallsicherheit für kritische Systeme beginnt dort, wo die Abhängigkeit vom einzelnen Rechenzentrum endet. Wer heute Infrastruktur plant, sollte Georedundanz nicht als “Zusatzoption” für später betrachten, sondern als das architektonische Fundament. Nur wer nachweisbar belegen kann, dass ein regionaler Totalausfall die Dienstgüte nicht gefährdet, erfüllt die hohen Anforderungen moderner Regulatorik.
Warum reicht ein Backup im zweiten Rechenzentrum nicht aus? Ein Backup sichert die Daten, aber nicht die Verfügbarkeit. Das Einspielen von Backups und das manuelle Umschalten von DNS-Einträgen dauert oft Stunden. KRITIS-Anforderungen verlangen meist Wiederherstellungszeiten (RTO) im Minuten- oder Sekundenbereich, was nur durch aktiv mitlaufende Systeme erreichbar ist.
Erhöht Multi-Region-Betrieb nicht massiv die Komplexität? Die Komplexität steigt in der Tat, lässt sich aber durch moderne Orchestrierungstools und GitOps-Workflows beherrschen. Der Gewinn an Sicherheit und die Möglichkeit, Wartungsarbeiten im laufenden Betrieb durchzuführen, überwiegen für kritische Systeme fast immer den administrativen Mehraufwand.
Gibt es Mindestanforderungen an die Distanz zwischen den Standorten? Ja, das BSI empfiehlt für georedundante Setups oft eine Mindestdistanz (z. B. 100 km bis 200 km), um sicherzustellen, dass großflächige Katastrophen nicht beide Standorte gleichzeitig betreffen. Die genauen Anforderungen hängen jedoch von der spezifischen Regulatorik (z. B. KritisV) ab.
Was ist der Unterschied zwischen Hochverfügbarkeit und Disaster Recovery? Hochverfügbarkeit schützt vor dem Ausfall einzelner Komponenten (z. B. Server oder Festplatte). Disaster Recovery (und Georedundanz) schützt vor katastrophalen Ereignissen, die ganze Infrastrukturen oder Standorte lahmlegen.
In der modernen IT-Welt ist Video die Königsdisziplin. Eine hochperformante Video-Infrastruktur …
In einer Multi-Tenant-Umgebung (viele Kunden auf einer Plattform) ist Video ein egoistischer …
In vielen Unternehmen gleicht die Vorbereitung auf ein IT-Sicherheits-Audit einem Kraftakt: …