Einführung in Kthena: LLM-Inferenz für die cloudnative Ära
Quelle: CNCF Blog
3 Minuten Lesezeit

Einführung in Kthena: LLM-Inferenz für die cloudnative Ära

Kthena ist ein neues cloud-natives System für die Inferenz von Large Language Models (LLMs), das speziell für Kubernetes entwickelt wurde. Es bietet eine intelligente Orchestrierung, v

TL;DR

Kthena ist ein neues cloud-natives System für die Inferenz von Large Language Models (LLMs), das speziell für Kubernetes entwickelt wurde. Es bietet eine intelligente Orchestrierung, verbesserte Ressourcennutzung und flexible Steuerung über die gesamte KI-Lebenszyklus, um Herausforderungen wie niedrige Ressourcenauslastung und komplexes Multi-Modell-Management zu bewältigen.

Hauptinhalt

Kthena stellt eine innovative Lösung für die Herausforderungen dar, die mit der Bereitstellung von LLMs in Produktionsumgebungen auf Kubernetes verbunden sind. Die Entwicklung von Kthena zielt darauf ab, die Effizienz und Flexibilität bei der Inferenz von LLMs zu steigern, indem es eine intelligente Schicht über bestehenden Inferenz-Engines wie vLLM und SGLang bildet. Diese Integration in Kubernetes ermöglicht eine nahtlose Verwaltung und Orchestrierung von Anfragen.

Die Hauptkomponenten von Kthena sind der Kthena Router und der Kthena Controller Manager. Der Router fungiert als leistungsstarker Multi-Modell-Router, der alle Inferenzanfragen intelligent an die entsprechenden ModelServers verteilt. Der Controller Manager übernimmt die Aufgaben der Arbeitslastorchestrierung und Lebenszyklusverwaltung, indem er benutzerdefinierte Ressourcendefinitionen (CRDs) verwaltet und die Ressourcen in Echtzeit entsprechend der deklarierten Absichten bereitstellt.

Kthena adressiert mehrere kritische Herausforderungen in der LLM-Bereitstellung. Eine der größten Herausforderungen ist die niedrige Ressourcennutzung, die durch den dynamischen Speicherbedarf der LLM-Inferenz verursacht wird. Traditionelle Lastenausgleichsmechanismen wie Round-Robin sind nicht in der Lage, diese Anforderungen zu erkennen, was zu ineffizienten Ressourcennutzungen führt. Kthena optimiert die Ressourcennutzung durch topology-aware Scheduling und KV Cache-aware Routing.

Ein weiteres Problem ist der Trade-off zwischen Latenz und Durchsatz. Kthena ermöglicht eine native Unterstützung für das Prefill-Decode (PD) Disaggregation, was eine separate Skalierung der rechenintensiven Prefill- und speichergebundenen Decode-Phasen erlaubt. Diese Flexibilität verbessert die Gesamtleistung und minimiert die Latenzzeiten.

Darüber hinaus bietet Kthena eine vereinfachte Verwaltung von Multi-Modell-Umgebungen. Unternehmen können mehrere Modelle und Versionen gleichzeitig bedienen, ohne dass es zu starren Zuordnungen zwischen AI Gateways und Modellen kommt. Kthena unterstützt dynamisches Routing und ein faires Scheduling, um die Effizienz zu maximieren.

Technische Details/Implikationen

Die Architektur von Kthena umfasst eine hierarchische Arbeitslastarchitektur, die eine einheitliche API bietet und die Verwaltung komplexer Bereitstellungen vereinfacht. Die Implementierung von Gang Scheduling und topology-aware Affinität minimiert die Latenz durch optimierte Platzierung von Pods im Netzwerk. Kthena unterstützt auch eine Vielzahl von Routing-Algorithmen, die auf spezifische Anforderungen zugeschnitten sind, wie z.B. Least Request und Fairness Scheduling.

Die Bereitstellung erfolgt nahtlos über vordefinierte Templates für gängige Modelle, die die erforderlichen Routing- und Lebenszyklusressourcen automatisch generieren. Die Unterstützung für LoRA-Hot-Swapping ermöglicht eine unterbrechungsfreie Anpassung und Routing von LoRA-Adaptern.

Fazit/Ausblick

Kthena stellt eine umfassende Lösung für die Herausforderungen der LLM-Inferenz in cloud-nativen Umgebungen dar. Mit seiner intelligenten Orchestrierung und flexiblen Ressourcenverwaltung könnte Kthena eine entscheidende Rolle in der Weiterentwicklung von MLOps und der Bereitstellung von KI-Anwendungen spielen.

Originalartikel

Veröffentlicht von CNCF Blog

Zum Original-Artikel

Automatisierte Zusammenfassung

Dieser Beitrag wurde automatisch aus dem englischsprachigen Original erstellt und auf Deutsch zusammengefasst. Wir bieten diesen Service an, um Sie bei der oft zerklüfteten und überwiegend englischsprachigen News-Situation im Bereich Cloud-Native Software, Souveräne Cloud, Kubernetes und Container-Technologien zeitnah auf Deutsch zu informieren.

Ähnliche Artikel