VictoriaMetrics & VictoriaLogs: Observability für NIS-2 und DORA
TL;DR Moderne Compliance-Anforderungen wie NIS-2, DORA und GDPR verlangen eine belastbare, …
Diese Serie erklärt systematisch, wie moderne Software compliant entwickelt und betrieben wird – von EU-Regulierungen bis zur technischen Umsetzung.
Moderne Anwendungen bestehen selten aus einem Monolithen. Typischer sind Dutzende bis Hunderte Services, verteilt über Container, /kubernetes/-Cluster, Datenbanken und externe APIs. Fehlerfreiheit ist in solchen Umgebungen illusorisch – entscheidend ist, wie schnell und zuverlässig Sie Probleme erkennen, einordnen und beheben.
Observability ist dabei mehr als „ein bisschen Monitoring“. Es geht darum, den internen Zustand Ihrer Systeme aus extern beobachtbarem Verhalten rekonstruieren zu können. Dazu gehören:
Richtig umgesetzt, wird Observability zu einem stabilen Baustein Ihrer Plattform-Governance. Sie hilft nicht nur beim Incident-Handling, sondern auch bei Kapazitätsplanung, Kostenoptimierung und dem Nachweis gegenüber Auditoren, dass Ihre Systeme kontrollierbar und nachvollziehbar betrieben werden.
Mit VictoriaMetrics, VictoriaLogs und Grafana steht ein Stack zur Verfügung, der diese Anforderungen ohne Vendor-Lock-in adressiert und gut in europäische Datenschutz- und Compliance-Modelle integriert werden kann.
Metriken sind numerische Zeitreihen: Requests pro Sekunde, Fehlerraten, Latenzen, CPU- und Speicherauslastung. Ihr Vorteil ist Effizienz: Sie lassen sich in hoher Frequenz erheben und sehr lange speichern.
Prometheus hat sich hierfür als De-facto-Standard etabliert – und VictoriaMetrics als performantes Backend, das Prometheus-kompatible Daten entgegennimmt und über PromQL abfragbar macht. Für Kapazitätsplanung und Golden-Signals-Monitoring sind Metriken das zentrale Werkzeug.
Logs liefern die Geschichte hinter den Zahlen. Sie enthalten Kontext: User-IDs, Request-IDs, Exception-Stacks, Business-Events. Gerade aus Compliance-Sicht sind Logs zentral: Sie ermöglichen Forensik, Nachvollziehbarkeit von Zugriffen und Rekonstruktion von Vorfällen.
VictoriaLogs ist darauf ausgelegt, diese Log-Daten strukturiert, durchsuchbar und manipulationssicher zu speichern – eine wichtige Voraussetzung für regulatorische Anforderungen etwa in Richtung NIS2 oder DORA, die ab dem 17. Januar 2025 gilt.
Traces verbinden Ereignisse über Service-Grenzen hinweg. Sie zeigen, wie ein einzelner Request durch mehrere Services, Queues und Datenbanken wandert. In stark verteilten Architekturen hilft das, Performance-Bottlenecks und unerwartete Abhängigkeiten sichtbar zu machen.
Auch wenn Tracing nicht für jedes System zwingend ist, runden Traces in komplexen Plattformen die Observability-Perspektive ab – gerade in Verbindung mit den Golden Signals.
Die vier Golden Signals – Latency, Traffic, Errors, Saturation – bilden eine praxistaugliche Brücke zwischen Technik und Betrieb. Sie helfen, Observability nicht als Sammlung willkürlicher Metriken zu verstehen, sondern als fokussiertes Set von Kennzahlen mit klarem Zweck.
Latenz beschreibt die Zeit, die ein System benötigt, um eine Anfrage zu bearbeiten. Wichtige Aspekte:
Über VictoriaMetrics lassen sich Latenz-Metriken granular erfassen, Grafana visualisiert sie in Zeitreihen und Heatmaps. Logs aus VictoriaLogs ergänzen die Perspektive: Sie zeigen, welche konkreten Requests langsamer wurden und welche Business-Operationen betroffen sind.
Traffic misst, wie viel „Arbeit“ Ihr System verrichtet:
Traffic-Metriken sind essenziell, um Latenz und Errors einzuordnen: Steigende Latenzen bei konstantem Traffic deuten eher auf interne Probleme hin, steigende Latenzen bei massiv wachsendem Traffic eher auf Kapazitätsgrenzen.
VictoriaMetrics skaliert hier sehr effizient, auch wenn Sie Millionen Zeitreihen über längere Zeiträume speichern. Das erleichtert Trendanalysen und Kapazitätsplanung erheblich.
Error-Signale zeigen, wie zuverlässig Ihr System arbeitet:
Metriken geben Ihnen aggregierte Fehlerraten pro Service oder Endpoint, Logs liefern Details zu Ursache und Kontext. Mit VictoriaLogs und LogQL (kompatibel zu Loki) können Sie schnell filtern: etwa nach Fehlertyp, Mandant oder Feature-Flag.
Aus diesen Daten lassen sich Service-Level-Objectives (SLOs) ableiten, etwa: „99,5 % der Anfragen an den Checkout-Service sind erfolgreich über einen Rollup-Zeitraum von 30 Tagen.“ Grafana unterstützt Sie dabei, diese SLOs sichtbar und überprüfbar zu machen.
Saturation beschreibt, wie sehr Ihre Ressourcen ausgelastet sind:
Für Operationsteams ist Saturation ein Frühwarnsignal. Steigt die Saturation, folgen oft Latenz und Errors. Mit VictoriaMetrics erfassen Sie diese Metriken konsistent pro Node, Pod und Service; Logs verweisen auf konkrete Situationen, in denen Ressourcen ausgeschöpft waren.
VictoriaMetrics ist eine hochperformante Time-Series-Datenbank, die Prometheus-kompatible Metriken annimmt. Für Verantwortliche in größeren Umgebungen sind mehrere Eigenschaften besonders relevant:
Damit wird VictoriaMetrics zu einem verlässlichen Fundament für das Golden-Signals-Monitoring in produktiven Plattformen.
VictoriaLogs adressiert den zweiten Kernbereich der Observability: Logs. Für Verantwortliche mit Blick auf Sicherheit und Compliance sind dabei mehrere Punkte besonders interessant:
user_id, tenant, request_id oder feature_flag.Das Ergebnis ist ein Log-Backend, das sowohl Betriebsteams als auch Datenschutz- und Compliance-Verantwortlichen verwertbare, strukturierte Informationen liefert – ohne auf proprietäre SaaS-Lösungen angewiesen zu sein.
Grafana ist der sichtbare Teil des Observability-Stacks. Technisch Verantwortliche benötigen ein Werkzeug, das:
Wichtige Eigenschaften:
Um die genannten Konzepte greifbar zu machen, betrachten wir eine typische Django-Anwendung, die in /kubernetes/ betrieben wird und per Ingress nach außen erreichbar ist.
Ein Golden-Signals-Dashboard in Grafana könnte wie folgt strukturiert sein:
Oben im Dashboard befinden sich Filter für:
django-frontend, django-api),Diese Filter steuern alle Panels und ermöglichen es, von einer globalen auf eine sehr fokussierte Sicht zu wechseln.
Mehrere Panels widmen sich der Latenz:
Die Daten stammen aus Django- oder Ingress-Metriken, die via Exporter an VictoriaMetrics geliefert werden. Detailanalysen erfolgen über Log-Queries in VictoriaLogs, z. B. nach besonders langsamen Requests mit spezifischer request_id.
Für Traffic könnten folgende Panels sinnvoll sein:
So lassen sich Lastspitzen erkennen und mit Latenzveränderungen korrelieren. Für Deployments oder Marketing-Kampagnen wird sichtbar, wie das System reagiert.
Errors werden sowohl als Metriken als auch über Logs abgebildet:
Damit lassen sich Ursachen schnell eingrenzen: Konfigurationsfehler, Datenbankprobleme, externe Abhängigkeiten oder fehlerhafte Deployments.
Saturation-Panels zeigen, wie stark Ressourcen ausgelastet sind:
Ein typisches Muster: Steigt die Queue-Länge kontinuierlich und liegen die Worker bei hoher CPU-Auslastung, ist eine Skalierungsentscheidung gefragt, bevor Latenz und Errors sichtbar ansteigen.
Im gleichen Dashboard können „SLO-Overviews“ integriert werden:
Grafana Alerting nutzt hierfür Daten aus VictoriaMetrics und VictoriaLogs. So wird aus einem Dashboard ein operatives Steuerungsinstrument – nicht nur eine hübsche Visualisierung.
Für die meisten Systeme sind Metriken und Logs unverzichtbar, Traces dagegen abhängig von Komplexität und Architektur. Ein pragmatischer Ansatz:
Wichtig ist, dass Sie Observability nicht als „alles oder nichts“ verstehen. Ein konsistentes Golden-Signals-Setup mit Metriken und Logs bringt schnell massiven Mehrwert – auch ohne flächendeckendes Tracing.
Bewährt hat sich ein schrittweises Vorgehen:
ayedo unterstützt Kunden genau in diesem Prozess – von Architektur-Workshops über PoCs bis zum stabilen Betrieb.
Observability ist ein wichtiger technischer Enabler für mehrere europäische Regulierungen:
Ein Observability-Stack mit VictoriaMetrics, VictoriaLogs und Grafana hilft Ihnen, nicht nur Zwischenfälle schneller zu erkennen und zu beheben, sondern auch strukturiert nachzuweisen, dass Sie Ihre Systeme im Griff haben.
Weitere Fragen? Siehe unsere FAQ
Ein durchdachtes Observability-Konzept entsteht nicht allein durch die Auswahl guter Werkzeuge. Es geht darum, Metriken, Logs und Golden Signals so in Ihre Plattform zu integrieren, dass sie operativ und regulatorisch tragen – über Jahre, nicht nur für den nächsten Audit.
ayedo begleitet Organisationen dabei, genau diesen Schritt zu gehen. Technisch bedeutet das:
Unser Anspruch ist, Observability so in Ihre Organisation einzubetten, dass Engineering, Betrieb, Security und Compliance-Abteilung auf derselben Datengrundlage arbeiten – und damit fundierte, gemeinsame Entscheidungen treffen können.
Wenn Sie ein Observability-Setup aufbauen oder modernisieren möchten, das sowohl technischen Anforderungen als auch europäischen Compliance-Standards gerecht wird, unterstützen wir Sie gerne von der Konzeption bis zum Betrieb: Observability Setup
TL;DR Moderne Compliance-Anforderungen wie NIS-2, DORA und GDPR verlangen eine belastbare, …
TL;DR GitOps mit ArgoCD verankert den gewünschten Zustand Ihrer Anwendungen und Infrastruktur in Git …
TL;DR Die Erweiterung der klassischen 12-Factor-App um die Faktoren 13–15 (API First, Telemetry, …