Einführung in Kthena: LLM-Inferenz für die cloudnative Ära
TL;DR Kthena ist ein neues cloud-natives System für die Inferenz von Large Language Models (LLMs), …
Die Wiederverwendung von unterausgelasteten GPUs in Kubernetes wird durch einen neuen Scheduler-Plugin namens ReclaimIdleResource optimiert. Dieser Plugin ermöglicht eine nutzungsbasierte Preemption, die es ermöglicht, inaktive Pods zu verdrängen, um Ressourcen effizienter zu nutzen. Dies verbessert die Ressourcenauslastung in Kubernetes-Clustern, die GPU-intensive Workloads verarbeiten.
In Kubernetes-Umgebungen, die GPU-intensive Anwendungen ausführen, bleiben viele leistungsstarke GPUs oft ungenutzt, obwohl sie zugewiesen sind. Dies führt zu einer ineffizienten Ressourcennutzung, da Pods, die GPUs anfordern, diese häufig nur teilweise verwenden. Das Standard-Scheduling-Modell von Kubernetes berücksichtigt derzeit keine Echtzeitnutzung von GPUs, was bedeutet, dass zugewiesene Ressourcen als nicht verfügbar betrachtet werden, selbst wenn sie nicht aktiv genutzt werden.
Das Problem ist besonders ausgeprägt bei teuren GPUs, wie den NVIDIA A100, die in vielen Clustern vorhanden sind. Ein typisches Szenario ist, dass ein Data Scientist eine Trainingsaufgabe startet, die vier GPUs anfordert, aber während der Laufzeit eine längere Pause einlegt. In dieser Zeit bleiben die GPUs zugewiesen, aber ungenutzt, während andere Jobs auf die Ressourcen warten.
Die Standard-Preemption-Mechanismen von Kubernetes berücksichtigen nur die Priorität der Pods und nicht deren tatsächliche Nutzung. Das führt zu einer suboptimalen Ressourcenzuteilung, da Pods mit derselben Priorität unabhängig von ihrer Nutzung behandelt werden. Um dieses Problem zu lösen, wurde der Ansatz der nutzungsbasierten Preemption entwickelt.
Der ReclaimIdleResource-Plugin ersetzt die Standard-Preemption-Logik durch eine, die die GPU-Nutzung berücksichtigt. Er funktioniert in der PostFilter-Phase des Scheduling-Zyklus, in der Kubernetes nach Preemption-Kandidaten sucht, wenn ein Pod nicht normal geplant werden kann. Der Plugin führt mehrere Schritte durch:
Die Konfiguration des Plugins erfolgt über Annotations in der Prioritätsklasse, die spezifische Parameter wie die minimale preemptable Priorität und die Schwellenwerte für die GPU-Nutzung definieren.
Der ReclaimIdleResource-Plugin stellt einen bedeutenden Fortschritt in der Verwaltung von GPU-Ressourcen in Kubernetes dar und könnte die Effizienz von GPU-nutzenden Anwendungen erheblich steigern. Die Implementierung solcher nutzungsbasierten Scheduling-Mechanismen könnte die Grundlage für weitere Optimierungen in der Ressourcennutzung innerhalb von Kubernetes-Clustern bilden.
Dieser Beitrag wurde automatisch aus dem englischsprachigen Original erstellt und auf Deutsch zusammengefasst. Wir bieten diesen Service an, um Sie bei der oft zerklüfteten und überwiegend englischsprachigen News-Situation im Bereich Cloud-Native Software, Souveräne Cloud, Kubernetes und Container-Technologien zeitnah auf Deutsch zu informieren.
TL;DR Kthena ist ein neues cloud-natives System für die Inferenz von Large Language Models (LLMs), …
TL;DR Ingress-nginx wird Anfang 2026 archiviert und erhält keine Wartung oder Sicherheitsupdates …
TL;DR Im Jahr 2025 hat das k0s-Projekt bedeutende Fortschritte in der Kubernetes-Community gemacht, …