Einführung in die Gateway API Inference Extension
Quelle: Kubernetes Blog
3 Minuten Lesezeit

Einführung in die Gateway API Inference Extension

Die Gateway API Inference Extension wurde entwickelt, um die spezifischen Anforderungen an das Routing von Inferenz-Workloads in Kubernetes zu adressieren. Sie ermöglicht eine verbesse

TL;DR

Die Gateway API Inference Extension wurde entwickelt, um die spezifischen Anforderungen an das Routing von Inferenz-Workloads in Kubernetes zu adressieren. Sie ermöglicht eine verbesserte, modellbewusste Lastverteilung und optimiert die Ressourcennutzung für generative KI- und große Sprachmodell-Dienste.

Hauptinhalt

Die Einführung von generativen KI-Diensten und großen Sprachmodellen (LLMs) bringt neue Herausforderungen für das Traffic-Routing in Kubernetes mit sich. Im Gegensatz zu typischen, kurzlebigen, zustandslosen Webanfragen sind Inferenzsitzungen oft langlaufend, ressourcenintensiv und teilweise zustandsbehaftet. Ein einzelner GPU-unterstützter Modellserver kann mehrere Inferenzsitzungen gleichzeitig aktiv halten und In-Memory-Token-Caches verwalten. Herkömmliche Lastverteiler, die sich auf HTTP-Pfade oder Round-Robin-Methoden stützen, sind nicht ausreichend, um diese speziellen Anforderungen zu erfüllen.

Die Gateway API Inference Extension wurde entwickelt, um diese Lücke zu schließen. Sie baut auf der bestehenden Gateway API auf und fügt spezifische Routing-Funktionen für Inferenz-Workloads hinzu, während sie das vertraute Modell von Gateways und HTTPRoutes beibehält. Durch die Integration dieser Erweiterung wird der Gateway zu einem Inference Gateway, das es ermöglicht, GenAI/LLMs mit einem „Modell-als-eine-Dienstleistung“-Ansatz selbst zu hosten.

Die Hauptziele des Projekts sind die Verbesserung und Standardisierung des Routings für Inferenz-Workloads. Dazu gehören modellbewusstes Routing, Unterstützung für kritische Anfragen, sichere Modellbereitstellungen und die Optimierung der Lastverteilung basierend auf Echtzeit-Metriken. Diese Verbesserungen zielen darauf ab, die Latenz zu reduzieren und die Auslastung von GPUs für KI-Workloads zu optimieren.

Das Design der Erweiterung führt zwei neue benutzerdefinierte Ressourcen (CRDs) ein: InferencePool und InferenceModel. Der InferencePool definiert einen Pool von Pods (Modellservern), die auf gemeinsam genutzten Rechenressourcen laufen. Plattformadministratoren können konfigurieren, wie diese Pods bereitgestellt, skaliert und balanciert werden. Der InferencePool gewährleistet eine konsistente Ressourcennutzung und setzt plattformweite Richtlinien durch.

Das InferenceModel hingegen ist ein benutzerorientierter Modellendpunkt, der von KI/ML-Eigentümern verwaltet wird. Es verknüpft einen öffentlichen Namen (z. B. “gpt-4-chat”) mit dem tatsächlichen Modell innerhalb eines InferencePools. Dies ermöglicht es den Arbeitslastbesitzern, die gewünschten Modelle und optionale Feinabstimmungen zu spezifizieren sowie eine Verkehrsaufteilung oder Priorisierung festzulegen.

Technische Details/Implikationen

Der Anfragefluss basiert auf dem Modell der Gateway API und enthält zusätzliche, inferenzspezifische Schritte. Wenn eine Anfrage (z. B. ein HTTP POST an /completions) eingeht, prüft der Gateway die HTTPRoute und identifiziert den passenden InferencePool-Backend. Anstatt die Anfrage einfach an einen verfügbaren Pod weiterzuleiten, konsultiert der Gateway eine inferenzspezifische Routing-Erweiterung, um den besten Pod auszuwählen. Diese Erweiterung berücksichtigt aktuelle Pod-Metriken wie Wartelängen und Speichernutzung, um den idealen Pod für die Anfrage auszuwählen.

Diese intelligente, modellbewusste Routing-Mechanik ermöglicht eine effizientere Nutzung der Ressourcen und optimiert die Latenz für kritische Anfragen. Die Erweiterung ist zudem erweiterbar, sodass weitere inferenzspezifische Erweiterungen entwickelt werden können, um neue Routing-Strategien oder spezialisierte Hardware-Anforderungen zu unterstützen.

Fazit/Ausblick

Die Gateway API Inference Extension stellt einen wichtigen Fortschritt für die Handhabung von Inferenz-Workloads in Kubernetes dar. Durch die Standardisierung und Optimierung des Routings können Unternehmen die Effizienz ihrer KI-Dienste erheblich steigern und die Latenzzeiten reduzieren.

Originalartikel

Veröffentlicht von Kubernetes Blog

Zum Original-Artikel

Automatisierte Zusammenfassung

Dieser Beitrag wurde automatisch aus dem englischsprachigen Original erstellt und auf Deutsch zusammengefasst. Wir bieten diesen Service an, um Sie bei der oft zerklüfteten und überwiegend englischsprachigen News-Situation im Bereich Cloud-Native Software, Souveräne Cloud, Kubernetes und Container-Technologien zeitnah auf Deutsch zu informieren.

Ähnliche Artikel