Kubernetes ist der De-facto-Standard für die Container-Orchestrierung, aber wenn es um den Umgang mit spezialisierter Hardware wie GPUs und anderen Beschleunigern geht, wird es kompliziert. In diesem Blogbeitrag werfen wir einen Blick auf die Herausforderungen bei der Verwaltung von Ausfällen, wenn Pods mit Geräten in Kubernetes betrieben werden. Diese Erkenntnisse basieren auf dem Vortrag von Sergey Kanzhelev und Mrunal Patel auf der KubeCon NA 2024. Sie können die Präsentation und die Aufzeichnung einsehen.

Der AI/ML-Boom und seine Auswirkungen auf Kubernetes

Der Anstieg von AI/ML-Workloads bringt neue Herausforderungen für Kubernetes mit sich. Diese Workloads sind oft stark auf spezialisierte Hardware angewiesen, und jeder Geräteausfall kann die Leistung erheblich beeinträchtigen und zu frustrierenden Unterbrechungen führen. Wie im Jahr 2024 im Llama-Paper hervorgehoben, sind Hardwareprobleme, insbesondere GPU-Ausfälle, eine der Hauptursachen für Störungen im AI/ML-Training. Sie können auch erfahren, wie viel Aufwand NVIDIA in die Handhabung von Geräteausfällen und Wartung investiert, indem Sie sich den Vortrag von Ryan Hallisey und Piotr Prokop „All Your GPUs Are Belong to Us: An Inside Look at NVIDIA’s Self-Healing GeForce NOW Infrastructure" (Aufzeichnung) ansehen, wo sie von 19 Remedierungsanfragen pro 1000 Knoten und Tag sprechen!

Wir sehen auch, dass Rechenzentren Spot-Nutzungsmodelle anbieten und die Leistung überbuchen, was Geräteausfälle zur Norm und Teil des Geschäftsmodells macht.

Kubernetes betrachtet Ressourcen jedoch immer noch als sehr statisch. Die Ressource ist entweder vorhanden oder nicht. Und wenn sie vorhanden ist, wird angenommen, dass sie vollständig funktionsfähig bleibt – Kubernetes bietet nur begrenzte Unterstützung für die Handhabung von vollständigen oder teilweisen Hardwareausfällen. Diese langjährigen Annahmen in Kombination mit der allgemeinen Komplexität einer Einrichtung führen zu einer Vielzahl von Ausfallmodi, die wir hier diskutieren werden.

Bei ayedo unterstützen wir Sie als Kubernetes-Partner dabei, diese Herausforderungen zu meistern und Ihre Infrastruktur resilienter zu gestalten. Unsere Enterprise Cloud-Lösungen sind speziell darauf ausgelegt, auch kritische Workloads sicher und zuverlässig zu betreiben.


Quelle: Kubernetes Blog

ayedo Alien Kubernetes Hat

Hosten Sie Ihre Apps bei ayedo

Profitieren Sie von skalierbarem App Hosting in Kubernetes, hochverfügbarem Ingress Loadbalancing und erstklassigem Support durch unser Plattform Team. Mit der ayedo Cloud können Sie sich wieder auf das konzentrieren, was Sie am besten können: Software entwickeln.

Jetzt ausprobieren →

Ähnliche Inhalte

Alle Blogs →



Katrin Peter · 03.07.2025 · ⏳ 2 Minuten

Produkt-Update bei Loopback:

Lesen →

Produkt-Update bei Loopback:
Katrin Peter · 03.07.2025 · ⏳ 3 Minuten

Kubernetes als Schlüsseltechnologie für die OZG-Umsetzung im Saarland

Lesen →

Kubernetes als Schlüsseltechnologie für die OZG-Umsetzung im Saarland
ayedo Redaktion · 28.06.2025 · ⏳ 3 Minuten

Kompatibilität von Container-Images: Ein Schlüssel zur Zuverlässigkeit in Cloud-Umgebungen

In Branchen, in denen Systeme äußerst zuverlässig laufen müssen und strenge Leistungsanforderungen bestehen, wie beispielsweise in der Telekommunikation, Hochleistungs- oder KI-Computing, benötigen …

Lesen →

Kompatibilität von Container-Images: Ein Schlüssel zur Zuverlässigkeit in Cloud-Umgebungen
Katrin Peter · 17.06.2025 · ⏳ 3 Minuten

Kubernetes kann Freiheit - wenn man es richtig macht.

Lesen →

Kubernetes kann Freiheit - wenn man es richtig macht.
ayedo Redaktion · 08.06.2025 · ⏳ 3 Minuten

Neue Wege im KI-Management: Die Gateway API Inference Extension

Moderne generative KI- und große Sprachmodelle (LLMs) stellen Kubernetes vor einzigartige Herausforderungen im Datenverkehrsmanagement. Im Gegensatz zu typischen kurzlebigen, zustandslosen Webanfragen …

Lesen →

Neue Wege im KI-Management: Die Gateway API Inference Extension

Interessiert an weiteren Inhalten? Hier gehts zu allen Blogs →


Noch Fragen? Melden Sie sich!

Unsere DevOps-Experten antworten in der Regel innerhalb einer Stunde.

Zu Gen-Z für E-Mail? Einfach mal Discord versuchen. Unter +49 800 000 3706 können Sie unter Angabe Ihrer Kontaktdaten auch einen Rückruf vereinbaren. Bitte beachten Sie, dass es keine Möglichkeit gibt, uns telefonisch direkt zu erreichen. Bitte gar nicht erst versuchen. Sollten Sie dennoch Interesse an synchroner Verfügbarkeit via Telefon haben, empfehlen wir Ihnen unseren Priority Support.