Neue Wege im KI-Management: Die Gateway API Inference Extension
Entdecken Sie, wie die Gateway API Inference Extension die Herausforderungen bei KI-Modellen in Kubernetes löst.
Moderne generative KI- und große Sprachmodelle (LLMs) stellen Kubernetes vor einzigartige Herausforderungen im Datenverkehrsmanagement. Im Gegensatz zu typischen kurzlebigen, zustandslosen Webanfragen sind LLM-Inferenzsitzungen oft langwierig, ressourcenintensiv und teilweise zustandsbehaftet. Beispielsweise kann ein einzelner GPU-unterstützter Modellserver mehrere Inferenzsitzungen aktiv halten und gespeicherte Token im Arbeitsspeicher verwalten.
Traditionelle Lastverteiler, die sich auf HTTP-Pfade oder Round-Robin konzentrieren, fehlen die spezialisierten Fähigkeiten, die für diese Arbeitslasten erforderlich sind. Sie berücksichtigen auch nicht die Modellidentität oder die Kritikalität der Anfragen (z. B. interaktiver Chat vs. Batch-Jobs). Organisationen fügen häufig ad-hoc Lösungen zusammen, doch ein standardisierter Ansatz fehlt.
Gateway API Inference Extension
Gateway API Inference Extension wurde entwickelt, um diese Lücke zu schließen, indem sie auf der bestehenden Gateway API aufbaut und inference-spezifische Routing-Funktionen hinzufügt, während das vertraute Modell von Gateways und HTTPRoutes beibehalten wird. Durch das Hinzufügen einer Inference-Erweiterung zu Ihrem bestehenden Gateway transformieren Sie es effektiv in ein Inference Gateway und ermöglichen es Ihnen, GenAI/LLMs mit einer „Model-as-a-Service“-Mentalität selbst zu hosten.
Das Ziel des Projekts ist es, das Routing zu Inferenzarbeitslasten im gesamten Ökosystem zu verbessern und zu standardisieren. Zu den wichtigsten Zielen gehören die Aktivierung modellbewusster Routen, die Unterstützung von kritikalitätsbasierten Anfragen, die Erleichterung sicherer Modellbereitstellungen und die Optimierung der Lastverteilung basierend auf Echtzeit-Modellmetriken. Durch das Erreichen dieser Ziele soll die Latenz reduziert und die Auslastung von Beschleunigern (GPUs) für KI-Arbeitslasten verbessert werden.
So funktioniert es
Das Design führt zwei neue benutzerdefinierte Ressourcen (CRDs) mit unterschiedlichen Verantwortlichkeiten ein, die jeweils mit einer bestimmten Benutzerpersönlichkeit im KI/ML-Servierungsworkflow übereinstimmen:
-
InferencePool
Definiert einen Pool von Pods (Modellserver), die auf gemeinsam genutzten Rechenressourcen (z. B. GPU-Knoten) laufen. Der Plattform-Administrator kann konfigurieren, wie diese Pods bereitgestellt, skaliert und ausgewogen werden. Ein InferencePool gewährleistet eine konsistente Ressourcennutzung und erzwingt plattformweite Richtlinien. Ein InferencePool ähnelt einem Service, ist jedoch speziell auf die Bedürfnisse der KI/ML-Bereitstellung zugeschnitten und kennt das Modellbereitstellungsprotokoll.
-
InferenceModel
Ein benutzerorientierter Modellendpunkt, der von KI/ML-Besitzern verwaltet wird. Er verknüpft einen öffentlichen Namen (z. B. “gpt-4-chat”) mit dem tatsächlichen Modell innerhalb eines InferencePools. Dies ermöglicht es den Arbeitslastbesitzern, anzugeben, welche Modelle (und optionale Feinabstimmungen) sie bereitgestellt haben möchten, sowie eine Richtlinie zur Verkehrsaufteilung oder Priorisierung.
Zusammenfassend lässt sich sagen, dass die InferenceModel-API es KI/ML-Besitzern ermöglicht, zu verwalten, was bereitgestellt wird, während der InferencePool es Plattformbetreibern ermöglicht, zu verwalten, wo und wie es bereitgestellt wird.
Die Gateway API Inference Extension stellt somit einen wichtigen Schritt dar, um die Herausforderungen bei der Bereitstellung von KI-Modellen in Kubernetes zu meistern und die Effizienz in der Nutzung von Ressourcen zu steigern. Mit ayedo als Partner im Bereich Kubernetes können Unternehmen von dieser neuen Technologie profitieren und ihre KI-Workloads optimieren.
Quelle: Kubernetes Blog