Fabian Peter • 04.11.2025 • 11 Minuten Lesezeit

Observability im Detail: VictoriaMetrics, VictoriaLogs, Grafana

Golden Signals: Latency, Traffic, Errors und Saturation in der Praxis

compliance-campaign-2026 observability victoriametrics victorialogs grafana golden-signals

Ganze Serie lesen (40 Artikel)

Diese Serie erklärt systematisch, wie moderne Software compliant entwickelt und betrieben wird – von EU-Regulierungen bis zur technischen Umsetzung.

TL;DR

Observability basiert auf drei Säulen – Metriken, Logs und Traces – und wird durch die vier Golden Signals (Latency, Traffic, Errors, Saturation) in ein praxistaugliches Monitoring-Modell für moderne, oft verteilte Systeme übersetzt.
VictoriaMetrics liefert als Prometheus-kompatible, hochperformante Time-Series-Datenbank die Basis für Metriken mit Langzeit-Retention, skalierbarem Durchsatz und nativer Integration in Kubernetes über ServiceMonitors.
VictoriaLogs ergänzt diese Perspektive mit strukturierten, manipulationssicheren Logs auf Basis von LogQL und integriert sich nahtlos in Grafana, wodurch technische und regulatorische Anforderungen (z. B. Nachvollziehbarkeit, Unveränderbarkeit) effizient erfüllbar werden.
Grafana fungiert als zentrale Observability-Konsole: Dashboards, Alerting und Multi-Datasource-Fähigkeiten erlauben es, Golden Signals für Anwendungen wie Django-Services über Metriken und Logs hinweg konsistent zu visualisieren.
ayedo unterstützt Sie dabei, ein durchdachtes Observability-Setup auf Basis von VictoriaMetrics, VictoriaLogs und Grafana aufzubauen – von Architektur und Betrieb über Dashboards bis zur Einbettung in Ihre Plattform- und Compliance-Strategie.

Warum Observability heute unverzichtbar ist

Moderne Anwendungen bestehen selten aus einem Monolithen. Typischer sind Dutzende bis Hunderte Services, verteilt über Container, /kubernetes/-Cluster, Datenbanken und externe APIs. Fehlerfreiheit ist in solchen Umgebungen illusorisch – entscheidend ist, wie schnell und zuverlässig Sie Probleme erkennen, einordnen und beheben.

Observability ist dabei mehr als „ein bisschen Monitoring“. Es geht darum, den internen Zustand Ihrer Systeme aus extern beobachtbarem Verhalten rekonstruieren zu können. Dazu gehören:

kontinuierlich erhobene Metriken,
aussagekräftige, strukturierte Logs,
und – dort, wo sinnvoll – verteilte Traces.

Richtig umgesetzt, wird Observability zu einem stabilen Baustein Ihrer Plattform-Governance. Sie hilft nicht nur beim Incident-Handling, sondern auch bei Kapazitätsplanung, Kostenoptimierung und dem Nachweis gegenüber Auditoren, dass Ihre Systeme kontrollierbar und nachvollziehbar betrieben werden.

Mit VictoriaMetrics, VictoriaLogs und Grafana steht ein Stack zur Verfügung, der diese Anforderungen ohne Vendor-Lock-in adressiert und gut in europäische Datenschutz- und Compliance-Modelle integriert werden kann.

Die drei Säulen der Observability

Metriken: Verdichtete Signale für den Systemzustand

Metriken sind numerische Zeitreihen: Requests pro Sekunde, Fehlerraten, Latenzen, CPU- und Speicherauslastung. Ihr Vorteil ist Effizienz: Sie lassen sich in hoher Frequenz erheben und sehr lange speichern.

Prometheus hat sich hierfür als De-facto-Standard etabliert – und VictoriaMetrics als performantes Backend, das Prometheus-kompatible Daten entgegennimmt und über PromQL abfragbar macht. Für Kapazitätsplanung und Golden-Signals-Monitoring sind Metriken das zentrale Werkzeug.

Logs: Detailtiefe, Kontext und Nachvollziehbarkeit

Logs liefern die Geschichte hinter den Zahlen. Sie enthalten Kontext: User-IDs, Request-IDs, Exception-Stacks, Business-Events. Gerade aus Compliance-Sicht sind Logs zentral: Sie ermöglichen Forensik, Nachvollziehbarkeit von Zugriffen und Rekonstruktion von Vorfällen.

VictoriaLogs ist darauf ausgelegt, diese Log-Daten strukturiert, durchsuchbar und manipulationssicher zu speichern – eine wichtige Voraussetzung für regulatorische Anforderungen etwa in Richtung NIS2 oder DORA, die ab dem 17. Januar 2025 gilt.

Traces: Verteilte Abläufe verstehen

Traces verbinden Ereignisse über Service-Grenzen hinweg. Sie zeigen, wie ein einzelner Request durch mehrere Services, Queues und Datenbanken wandert. In stark verteilten Architekturen hilft das, Performance-Bottlenecks und unerwartete Abhängigkeiten sichtbar zu machen.

Auch wenn Tracing nicht für jedes System zwingend ist, runden Traces in komplexen Plattformen die Observability-Perspektive ab – gerade in Verbindung mit den Golden Signals.

Golden Signals im Detail

Die vier Golden Signals – Latency, Traffic, Errors, Saturation – bilden eine praxistaugliche Brücke zwischen Technik und Betrieb. Sie helfen, Observability nicht als Sammlung willkürlicher Metriken zu verstehen, sondern als fokussiertes Set von Kennzahlen mit klarem Zweck.

Latency: Antwortzeiten im Blick behalten

Latenz beschreibt die Zeit, die ein System benötigt, um eine Anfrage zu bearbeiten. Wichtige Aspekte:

Messung von End-to-End-Latenzen (z. B. HTTP-Response-Zeit Ihrer Django-App),
Differenzierung nach erfolgreichen und fehlerhaften Requests,
Percentile (p95, p99) statt nur Durchschnittswerten, um Ausreißer sichtbar zu machen.

Über VictoriaMetrics lassen sich Latenz-Metriken granular erfassen, Grafana visualisiert sie in Zeitreihen und Heatmaps. Logs aus VictoriaLogs ergänzen die Perspektive: Sie zeigen, welche konkreten Requests langsamer wurden und welche Business-Operationen betroffen sind.

Traffic: Last verstehen, Kapazität planen

Traffic misst, wie viel „Arbeit“ Ihr System verrichtet:

Requests pro Sekunde,
Nachrichten pro Sekunde in Queues,
Anzahl parallel aktiver User-Sessions.

Traffic-Metriken sind essenziell, um Latenz und Errors einzuordnen: Steigende Latenzen bei konstantem Traffic deuten eher auf interne Probleme hin, steigende Latenzen bei massiv wachsendem Traffic eher auf Kapazitätsgrenzen.

VictoriaMetrics skaliert hier sehr effizient, auch wenn Sie Millionen Zeitreihen über längere Zeiträume speichern. Das erleichtert Trendanalysen und Kapazitätsplanung erheblich.

Errors: Zuverlässigkeit quantifizieren

Error-Signale zeigen, wie zuverlässig Ihr System arbeitet:

HTTP-Fehlercodes (4xx, 5xx),
Applikationsfehler (Exceptions, Validierungsfehler),
Timeouts oder Circuit-Breaker-Events.

Metriken geben Ihnen aggregierte Fehlerraten pro Service oder Endpoint, Logs liefern Details zu Ursache und Kontext. Mit VictoriaLogs und LogQL (kompatibel zu Loki) können Sie schnell filtern: etwa nach Fehlertyp, Mandant oder Feature-Flag.

Aus diesen Daten lassen sich Service-Level-Objectives (SLOs) ableiten, etwa: „99,5 % der Anfragen an den Checkout-Service sind erfolgreich über einen Rollup-Zeitraum von 30 Tagen.“ Grafana unterstützt Sie dabei, diese SLOs sichtbar und überprüfbar zu machen.

Saturation: Ressourcen am Limit erkennen

Saturation beschreibt, wie sehr Ihre Ressourcen ausgelastet sind:

CPU- und Speicherauslastung,
Datenbank-Connection-Pools,
Queue-Längen,
Thread- und Worker-Pools.

Für Operationsteams ist Saturation ein Frühwarnsignal. Steigt die Saturation, folgen oft Latenz und Errors. Mit VictoriaMetrics erfassen Sie diese Metriken konsistent pro Node, Pod und Service; Logs verweisen auf konkrete Situationen, in denen Ressourcen ausgeschöpft waren.

VictoriaMetrics: performante Metriken für Langzeittransparenz

VictoriaMetrics ist eine hochperformante Time-Series-Datenbank, die Prometheus-kompatible Metriken annimmt. Für Verantwortliche in größeren Umgebungen sind mehrere Eigenschaften besonders relevant:

Prometheus-kompatibel: Sie können bestehende Exporter und Instrumentierungen weiterverwenden. Abfragen erfolgen über PromQL, was Teams mit Prometheus-Erfahrung den Umstieg erleichtert.
Skalierbarkeit und Performance: VictoriaMetrics ist auf hohe Ingestion-Raten und kosteneffiziente Speicherung ausgelegt. Das ermöglicht, sehr viele Metriken (z. B. pro Pod in /kubernetes/) mit langer Retention zu halten, ohne die Infrastrukturkosten ausufern zu lassen.
Langzeit-Retention: Compliance-Anforderungen sehen oft Aufbewahrungsfristen von Monaten bis Jahren vor. VictoriaMetrics erlaubt granular konfigurierbare Retention-Strategien, differenziert nach Metrik-Sets oder Umgebungen.
ServiceMonitor-Integration: In Kubernetes-Umgebungen werden Metriken üblicherweise über ServiceMonitor-Objekte (Custom Resources des Prometheus-Operators) konfiguriert. VictoriaMetrics kann diese Konfigurationen direkt nutzen, was den Aufwand für Migrationen von Prometheus-Setups reduziert.
Effiziente Abfragen: Abfragen über PromQL und die Integration in Grafana erlauben auch komplexe Auswertungen, etwa Korrelationen von Traffic-Spitzen, Latenz und Fehlern über verschiedene Services hinweg.

Damit wird VictoriaMetrics zu einem verlässlichen Fundament für das Golden-Signals-Monitoring in produktiven Plattformen.

VictoriaLogs: strukturierte Logs als Compliance-Baustein

VictoriaLogs adressiert den zweiten Kernbereich der Observability: Logs. Für Verantwortliche mit Blick auf Sicherheit und Compliance sind dabei mehrere Punkte besonders interessant:

Strukturierte Logs: Anstatt unstrukturierter Textzeilen arbeitet VictoriaLogs effizient mit strukturierten Events (z. B. JSON). Das erlaubt gezielte Abfragen nach Feldern wie user_id, tenant, request_id oder feature_flag.
LogQL-Unterstützung: Die Abfragesprache ist bewusst angelehnt an LogQL, wie man sie von Loki kennt. Wer bereits Loki im Einsatz hat oder entsprechende Expertise im Team, findet sich sofort zurecht – ein wichtiger Faktor für Akzeptanz und Betriebssicherheit.
Tamper-proof-Ansatz: Durch die Art, wie Daten gespeichert und versioniert werden, wird Manipulation deutlich erschwert oder nachweisbar. Das ist für Forensik, Incident-Response und Audits zentral – insbesondere im Lichte von NIS2, das am 17. Oktober 2024 in den EU-Mitgliedsstaaten in nationales Recht überführt sein muss.
Nahtlose Grafana-Integration: VictoriaLogs integriert sich direkt in Grafana. Damit lassen sich Logs nicht nur über eine Suchoberfläche analysieren, sondern auch in Dashboards einbetten, korreliert mit Metriken aus VictoriaMetrics und ggf. weiteren Datenquellen.

Das Ergebnis ist ein Log-Backend, das sowohl Betriebsteams als auch Datenschutz- und Compliance-Verantwortlichen verwertbare, strukturierte Informationen liefert – ohne auf proprietäre SaaS-Lösungen angewiesen zu sein.

Grafana als Observability-Konsole

Grafana ist der sichtbare Teil des Observability-Stacks. Technisch Verantwortliche benötigen ein Werkzeug, das:

Metriken, Logs und ggf. Traces konsistent visualisiert,
verschiedene Datenquellen zusammenführt,
und Alerting sowie Team-Kollaboration unterstützt.

Wichtige Eigenschaften:

Dashboards: Grafana bietet ein ausgereiftes Konzept für Dashboards mit Panels, Variablen und wiederverwendbaren Komponenten. Sie können Golden Signals pro Service, Umgebung (Prod/Staging) oder Mandant abbilden und so eine einheitliche Sprache im Betrieb etablieren.
Pre-built Dashboards: Für viele Komponenten – Datenbanken, Message-Broker, Kubernetes – existieren bereits Community- oder Vendor-Dashboards. In Verbindung mit VictoriaMetrics können Sie so innerhalb kürzester Zeit eine gute Grundabdeckung erreichen.
Alerting: Grafana Alerting erlaubt es, Regeln direkt auf Metriken und Logs zu definieren und an bestehende Incident-Management-Prozesse anzubinden (z. B. PagerDuty, Slack, E-Mail). So lassen sich Golden-Signals-Schwellenwerte (z. B. Error-Rate > 1 %) konsistent überwachen.
Multi-Datasource: Grafana kann mehrere Datenquellen parallel nutzen. Neben VictoriaMetrics und VictoriaLogs können Sie etwa Datenbanken, Cloud-Metrikdienste oder Security-Tools einbinden. Das macht Grafana zur zentralen Konsole für Ihre Plattform, statt eines weiteren isolierten Tools.

Praktisches Beispiel: Golden-Signals-Dashboard für eine Django-Anwendung

Um die genannten Konzepte greifbar zu machen, betrachten wir eine typische Django-Anwendung, die in /kubernetes/ betrieben wird und per Ingress nach außen erreichbar ist.

Ein Golden-Signals-Dashboard in Grafana könnte wie folgt strukturiert sein:

1. Kontext und Filter

Oben im Dashboard befinden sich Filter für:

Umgebung (Production, Staging, Testing),
Service (z. B. django-frontend, django-api),
Mandant oder Region (falls relevant).

Diese Filter steuern alle Panels und ermöglichen es, von einer globalen auf eine sehr fokussierte Sicht zu wechseln.

2. Latency

Mehrere Panels widmen sich der Latenz:

Zeitreihen für p50, p95 und p99 HTTP-Response-Zeiten, gruppiert nach Endpoint oder URL-Pattern.
Verteilung der Latenz für kritische Endpoints (z. B. Login, Checkout).
Optional: Ein Panel, das Latenz nach HTTP-Methode (GET/POST) oder Mandant aufschlüsselt.

Die Daten stammen aus Django- oder Ingress-Metriken, die via Exporter an VictoriaMetrics geliefert werden. Detailanalysen erfolgen über Log-Queries in VictoriaLogs, z. B. nach besonders langsamen Requests mit spezifischer request_id.

3. Traffic

Für Traffic könnten folgende Panels sinnvoll sein:

Requests pro Sekunde über die Zeit, getrennt nach Erfolg und Fehler.
Aufschlüsselung nach Endpoint oder API-Version.
Verteilung des Traffics auf verschiedene Ingress-Instanzen oder Pods.

So lassen sich Lastspitzen erkennen und mit Latenzveränderungen korrelieren. Für Deployments oder Marketing-Kampagnen wird sichtbar, wie das System reagiert.

4. Errors

Errors werden sowohl als Metriken als auch über Logs abgebildet:

Panels für HTTP-Fehlerquoten (4xx, 5xx), idealerweise in Prozent des Gesamttraffics.
Anzeige der häufigsten Exception-Typen aus Django-Logs (aggregiert über VictoriaLogs).
Drill-down-Funktion: Klick auf einen Peak in der Fehlerrate öffnet ein Log-Panel mit gefilterten Events aus VictoriaLogs.

Damit lassen sich Ursachen schnell eingrenzen: Konfigurationsfehler, Datenbankprobleme, externe Abhängigkeiten oder fehlerhafte Deployments.

5. Saturation

Saturation-Panels zeigen, wie stark Ressourcen ausgelastet sind:

CPU- und Memory-Auslastung der Django-Pods.
Datenbank-Connection-Pools (z. B. PostgreSQL), gemessen über Exporter.
Queue-Länge für Hintergrundjobs (z. B. Celery), falls vorhanden.

Ein typisches Muster: Steigt die Queue-Länge kontinuierlich und liegen die Worker bei hoher CPU-Auslastung, ist eine Skalierungsentscheidung gefragt, bevor Latenz und Errors sichtbar ansteigen.

6. Alerts und SLOs

Im gleichen Dashboard können „SLO-Overviews“ integriert werden:

Ampeldarstellungen für Error-SLOs (z. B. 99 % erfolgreiche Requests in den letzten 30 Tagen).
Panels, die anzeigen, wie viel „Fehlerbudget“ noch verbleibt.

Grafana Alerting nutzt hierfür Daten aus VictoriaMetrics und VictoriaLogs. So wird aus einem Dashboard ein operatives Steuerungsinstrument – nicht nur eine hübsche Visualisierung.

Häufige Fragen

Benötige ich wirklich alle drei Observability-Säulen (Metriken, Logs, Traces)?

Für die meisten Systeme sind Metriken und Logs unverzichtbar, Traces dagegen abhängig von Komplexität und Architektur. Ein pragmatischer Ansatz:

Starten Sie mit Metriken (VictoriaMetrics) und Logs (VictoriaLogs), fokussiert auf die Golden Signals.
Ergänzen Sie Traces gezielt für kritische Pfade oder besonders stark vernetzte Services.

Wichtig ist, dass Sie Observability nicht als „alles oder nichts“ verstehen. Ein konsistentes Golden-Signals-Setup mit Metriken und Logs bringt schnell massiven Mehrwert – auch ohne flächendeckendes Tracing.

Wie gehe ich konkret vor, wenn ich VictoriaMetrics, VictoriaLogs und Grafana einführen möchte?

Bewährt hat sich ein schrittweises Vorgehen:

Zielbild definieren: Welche Services, welche Umgebungen, welche regulatorischen Anforderungen (z. B. Retention, Tamper-Proof)?
Metrik-Backbone etablieren: VictoriaMetrics als zentrales Metrik-Backend aufsetzen, Prometheus- oder Exporter-Setups anbinden, erste Golden-Signals-Dashboards in Grafana erstellen.
Logs strukturieren: VictoriaLogs einführen, Logging-Format vereinheitlichen (z. B. JSON), zentrale Felder definieren (request_id, tenant, user_id, usw.), erste kombinierte Metrik-Log-Dashboards in Grafana bauen.
Alerting und SLOs: Basierend auf den gewonnenen Daten sinnvolle SLOs definieren und in Grafana Alerts abbilden.
Iterativ verfeinern: Lücken identifizieren (z. B. fehlende Business-Metriken), Instrumentierung nachziehen, Retention- und Berechtigungskonzepte anpassen.

ayedo unterstützt Kunden genau in diesem Prozess – von Architektur-Workshops über PoCs bis zum stabilen Betrieb.

Wie zahlt Observability auf meine Compliance-Anforderungen ein?

Observability ist ein wichtiger technischer Enabler für mehrere europäische Regulierungen:

NIS2 (Umsetzung bis 17. Oktober 2024): Verlangt unter anderem angemessene Maßnahmen zur Erkennung, Meldung und Behandlung von Sicherheitsvorfällen. Ohne belastbare Metriken und Logs ist das kaum nachweisbar.
DORA (gilt ab 17. Januar 2025): Betont Resilienz, Monitoring und die Nachvollziehbarkeit von IKT-Vorfällen insbesondere im Finanzsektor. Observability liefert hier die technische Grundlage für Reporting und Forensik.
DSGVO: Indirekt relevant über Nachvollziehbarkeit von Zugriffen und Minimierung von Datenverlusten.

Ein Observability-Stack mit VictoriaMetrics, VictoriaLogs und Grafana hilft Ihnen, nicht nur Zwischenfälle schneller zu erkennen und zu beheben, sondern auch strukturiert nachzuweisen, dass Sie Ihre Systeme im Griff haben.

Weitere Fragen? Siehe unsere FAQ

Von der Theorie zur Umsetzung

Ein durchdachtes Observability-Konzept entsteht nicht allein durch die Auswahl guter Werkzeuge. Es geht darum, Metriken, Logs und Golden Signals so in Ihre Plattform zu integrieren, dass sie operativ und regulatorisch tragen – über Jahre, nicht nur für den nächsten Audit.

ayedo begleitet Organisationen dabei, genau diesen Schritt zu gehen. Technisch bedeutet das:

Wir planen und betreiben für Sie einen skalierbaren Metrik-Backbone auf Basis von VictoriaMetrics, sauber integriert in Ihre /platform/ und /kubernetes/-Landschaft.
Wir etablieren VictoriaLogs als strukturiertes, auswertungstaugliches Log-Backend – inklusive sinnvollem Schema, Retention-Konzept nach regulatorischen Vorgaben und durchdachtem Berechtigungsmodell.
Wir gestalten mit Ihnen Grafana als zentrale Observability-Konsole: Golden-Signals-Dashboards pro Service, sinnvolle SLOs, Alerting-Regeln, die zu Ihren Betriebsprozessen passen, sowie Integration mit bestehenden Tools.
Wo bereits Lösungen wie Loki im Einsatz sind, entwickeln wir Migrations- oder Koexistenzstrategien, anstatt einen Big-Bang-Wechsel zu erzwingen.

Unser Anspruch ist, Observability so in Ihre Organisation einzubetten, dass Engineering, Betrieb, Security und Compliance-Abteilung auf derselben Datengrundlage arbeiten – und damit fundierte, gemeinsame Entscheidungen treffen können.

Wenn Sie ein Observability-Setup aufbauen oder modernisieren möchten, das sowohl technischen Anforderungen als auch europäischen Compliance-Standards gerecht wird, unterstützen wir Sie gerne von der Konzeption bis zum Betrieb: Observability Setup

Vorheriger Post Alle Posts Nächster Post

Observability im Detail: VictoriaMetrics, VictoriaLogs, Grafana

TL;DR

Warum Observability heute unverzichtbar ist

Die drei Säulen der Observability

Metriken: Verdichtete Signale für den Systemzustand