Neue Wege im KI-Management: Die Gateway API Inference Extension

Entdecken Sie, wie die Gateway API Inference Extension die Herausforderungen bei KI-Modellen in Kubernetes löst.

Meta: ayedo Redaktion · 08.06.2025 · ⏳ 3 Minuten · Alle Blogs →
Tagskubernetes · kubernetes-news · api

Moderne generative KI- und große Sprachmodelle (LLMs) stellen Kubernetes vor einzigartige Herausforderungen im Datenverkehrsmanagement. Im Gegensatz zu typischen kurzlebigen, zustandslosen Webanfragen sind LLM-Inferenzsitzungen oft langwierig, ressourcenintensiv und teilweise zustandsbehaftet. Beispielsweise kann ein einzelner GPU-unterstützter Modellserver mehrere Inferenzsitzungen aktiv halten und gespeicherte Token im Arbeitsspeicher verwalten.

Traditionelle Lastverteiler, die sich auf HTTP-Pfade oder Round-Robin konzentrieren, fehlen die spezialisierten Fähigkeiten, die für diese Arbeitslasten erforderlich sind. Sie berücksichtigen auch nicht die Modellidentität oder die Kritikalität der Anfragen (z. B. interaktiver Chat vs. Batch-Jobs). Organisationen fügen häufig ad-hoc Lösungen zusammen, doch ein standardisierter Ansatz fehlt.

Gateway API Inference Extension

Gateway API Inference Extension wurde entwickelt, um diese Lücke zu schließen, indem sie auf der bestehenden Gateway API aufbaut und inference-spezifische Routing-Funktionen hinzufügt, während das vertraute Modell von Gateways und HTTPRoutes beibehalten wird. Durch das Hinzufügen einer Inference-Erweiterung zu Ihrem bestehenden Gateway transformieren Sie es effektiv in ein Inference Gateway und ermöglichen es Ihnen, GenAI/LLMs mit einer „Model-as-a-Service“-Mentalität selbst zu hosten.

Das Ziel des Projekts ist es, das Routing zu Inferenzarbeitslasten im gesamten Ökosystem zu verbessern und zu standardisieren. Zu den wichtigsten Zielen gehören die Aktivierung modellbewusster Routen, die Unterstützung von kritikalitätsbasierten Anfragen, die Erleichterung sicherer Modellbereitstellungen und die Optimierung der Lastverteilung basierend auf Echtzeit-Modellmetriken. Durch das Erreichen dieser Ziele soll die Latenz reduziert und die Auslastung von Beschleunigern (GPUs) für KI-Arbeitslasten verbessert werden.

So funktioniert es

Das Design führt zwei neue benutzerdefinierte Ressourcen (CRDs) mit unterschiedlichen Verantwortlichkeiten ein, die jeweils mit einer bestimmten Benutzerpersönlichkeit im KI/ML-Servierungsworkflow übereinstimmen:

  1. InferencePool Definiert einen Pool von Pods (Modellserver), die auf gemeinsam genutzten Rechenressourcen (z. B. GPU-Knoten) laufen. Der Plattform-Administrator kann konfigurieren, wie diese Pods bereitgestellt, skaliert und ausgewogen werden. Ein InferencePool gewährleistet eine konsistente Ressourcennutzung und erzwingt plattformweite Richtlinien. Ein InferencePool ähnelt einem Service, ist jedoch speziell auf die Bedürfnisse der KI/ML-Bereitstellung zugeschnitten und kennt das Modellbereitstellungsprotokoll.

  2. InferenceModel Ein benutzerorientierter Modellendpunkt, der von KI/ML-Besitzern verwaltet wird. Er verknüpft einen öffentlichen Namen (z. B. “gpt-4-chat”) mit dem tatsächlichen Modell innerhalb eines InferencePools. Dies ermöglicht es den Arbeitslastbesitzern, anzugeben, welche Modelle (und optionale Feinabstimmungen) sie bereitgestellt haben möchten, sowie eine Richtlinie zur Verkehrsaufteilung oder Priorisierung.

Zusammenfassend lässt sich sagen, dass die InferenceModel-API es KI/ML-Besitzern ermöglicht, zu verwalten, was bereitgestellt wird, während der InferencePool es Plattformbetreibern ermöglicht, zu verwalten, wo und wie es bereitgestellt wird.

Die Gateway API Inference Extension stellt somit einen wichtigen Schritt dar, um die Herausforderungen bei der Bereitstellung von KI-Modellen in Kubernetes zu meistern und die Effizienz in der Nutzung von Ressourcen zu steigern. Mit ayedo als Partner im Bereich Kubernetes können Unternehmen von dieser neuen Technologie profitieren und ihre KI-Workloads optimieren.


Quelle: Kubernetes Blog

ayedo Alien Kubernetes Hat

Hosten Sie Ihre Apps bei ayedo

Profitieren Sie von skalierbarem App Hosting in Kubernetes, hochverfügbarem Ingress Loadbalancing und erstklassigem Support durch unser Plattform Team. Mit der ayedo Cloud können Sie sich wieder auf das konzentrieren, was Sie am besten können: Software entwickeln.

Jetzt ausprobieren →

Ähnliche Inhalte

Alle Blogs →



ayedo Redaktion · 06.07.2025 · ⏳ 2 Minuten

Herausforderungen und Lösungen: So meistern Sie Geräteausfälle in Kubernetes-Pods

Kubernetes ist der De-facto-Standard für die Container-Orchestrierung, aber wenn es um den Umgang mit spezialisierter Hardware wie GPUs und anderen Beschleunigern geht, wird es kompliziert. In diesem …

Lesen →

Herausforderungen und Lösungen: So meistern Sie Geräteausfälle in Kubernetes-Pods
Katrin Peter · 03.07.2025 · ⏳ 2 Minuten

Produkt-Update bei Loopback:

Lesen →

Produkt-Update bei Loopback:
Katrin Peter · 03.07.2025 · ⏳ 3 Minuten

Kubernetes als Schlüsseltechnologie für die OZG-Umsetzung im Saarland

Lesen →

Kubernetes als Schlüsseltechnologie für die OZG-Umsetzung im Saarland
ayedo Redaktion · 28.06.2025 · ⏳ 3 Minuten

Kompatibilität von Container-Images: Ein Schlüssel zur Zuverlässigkeit in Cloud-Umgebungen

In Branchen, in denen Systeme äußerst zuverlässig laufen müssen und strenge Leistungsanforderungen bestehen, wie beispielsweise in der Telekommunikation, Hochleistungs- oder KI-Computing, benötigen …

Lesen →

Kompatibilität von Container-Images: Ein Schlüssel zur Zuverlässigkeit in Cloud-Umgebungen
Katrin Peter · 17.06.2025 · ⏳ 3 Minuten

Kubernetes kann Freiheit - wenn man es richtig macht.

Lesen →

Kubernetes kann Freiheit - wenn man es richtig macht.

Interessiert an weiteren Inhalten? Hier gehts zu allen Blogs →


Noch Fragen? Melden Sie sich!

Unsere DevOps-Experten antworten in der Regel innerhalb einer Stunde.

Zu Gen-Z für E-Mail? Einfach mal Discord versuchen. Unter +49 800 000 3706 können Sie unter Angabe Ihrer Kontaktdaten auch einen Rückruf vereinbaren. Bitte beachten Sie, dass es keine Möglichkeit gibt, uns telefonisch direkt zu erreichen. Bitte gar nicht erst versuchen. Sollten Sie dennoch Interesse an synchroner Verfügbarkeit via Telefon haben, empfehlen wir Ihnen unseren Priority Support.