Neue Wege im KI-Management: Die Gateway API Inference Extension

Entdecken Sie, wie die Gateway API Inference Extension die Herausforderungen bei KI-Modellen in Kubernetes löst.

Meta: ayedo Redaktion · 08.06.2025 · ⏳ 3 Minuten · Alle Blogs →
Tagskubernetes · kubernetes-news · api

Moderne generative KI- und große Sprachmodelle (LLMs) stellen Kubernetes vor einzigartige Herausforderungen im Datenverkehrsmanagement. Im Gegensatz zu typischen kurzlebigen, zustandslosen Webanfragen sind LLM-Inferenzsitzungen oft langwierig, ressourcenintensiv und teilweise zustandsbehaftet. Beispielsweise kann ein einzelner GPU-unterstützter Modellserver mehrere Inferenzsitzungen aktiv halten und gespeicherte Token im Arbeitsspeicher verwalten.

Traditionelle Lastverteiler, die sich auf HTTP-Pfade oder Round-Robin konzentrieren, fehlen die spezialisierten Fähigkeiten, die für diese Arbeitslasten erforderlich sind. Sie berücksichtigen auch nicht die Modellidentität oder die Kritikalität der Anfragen (z. B. interaktiver Chat vs. Batch-Jobs). Organisationen fügen häufig ad-hoc Lösungen zusammen, doch ein standardisierter Ansatz fehlt.

Gateway API Inference Extension

Gateway API Inference Extension wurde entwickelt, um diese Lücke zu schließen, indem sie auf der bestehenden Gateway API aufbaut und inference-spezifische Routing-Funktionen hinzufügt, während das vertraute Modell von Gateways und HTTPRoutes beibehalten wird. Durch das Hinzufügen einer Inference-Erweiterung zu Ihrem bestehenden Gateway transformieren Sie es effektiv in ein Inference Gateway und ermöglichen es Ihnen, GenAI/LLMs mit einer „Model-as-a-Service“-Mentalität selbst zu hosten.

Das Ziel des Projekts ist es, das Routing zu Inferenzarbeitslasten im gesamten Ökosystem zu verbessern und zu standardisieren. Zu den wichtigsten Zielen gehören die Aktivierung modellbewusster Routen, die Unterstützung von kritikalitätsbasierten Anfragen, die Erleichterung sicherer Modellbereitstellungen und die Optimierung der Lastverteilung basierend auf Echtzeit-Modellmetriken. Durch das Erreichen dieser Ziele soll die Latenz reduziert und die Auslastung von Beschleunigern (GPUs) für KI-Arbeitslasten verbessert werden.

So funktioniert es

Das Design führt zwei neue benutzerdefinierte Ressourcen (CRDs) mit unterschiedlichen Verantwortlichkeiten ein, die jeweils mit einer bestimmten Benutzerpersönlichkeit im KI/ML-Servierungsworkflow übereinstimmen:

  1. InferencePool Definiert einen Pool von Pods (Modellserver), die auf gemeinsam genutzten Rechenressourcen (z. B. GPU-Knoten) laufen. Der Plattform-Administrator kann konfigurieren, wie diese Pods bereitgestellt, skaliert und ausgewogen werden. Ein InferencePool gewährleistet eine konsistente Ressourcennutzung und erzwingt plattformweite Richtlinien. Ein InferencePool ähnelt einem Service, ist jedoch speziell auf die Bedürfnisse der KI/ML-Bereitstellung zugeschnitten und kennt das Modellbereitstellungsprotokoll.

  2. InferenceModel Ein benutzerorientierter Modellendpunkt, der von KI/ML-Besitzern verwaltet wird. Er verknüpft einen öffentlichen Namen (z. B. “gpt-4-chat”) mit dem tatsächlichen Modell innerhalb eines InferencePools. Dies ermöglicht es den Arbeitslastbesitzern, anzugeben, welche Modelle (und optionale Feinabstimmungen) sie bereitgestellt haben möchten, sowie eine Richtlinie zur Verkehrsaufteilung oder Priorisierung.

Zusammenfassend lässt sich sagen, dass die InferenceModel-API es KI/ML-Besitzern ermöglicht, zu verwalten, was bereitgestellt wird, während der InferencePool es Plattformbetreibern ermöglicht, zu verwalten, wo und wie es bereitgestellt wird.

Die Gateway API Inference Extension stellt somit einen wichtigen Schritt dar, um die Herausforderungen bei der Bereitstellung von KI-Modellen in Kubernetes zu meistern und die Effizienz in der Nutzung von Ressourcen zu steigern. Mit ayedo als Partner im Bereich Kubernetes können Unternehmen von dieser neuen Technologie profitieren und ihre KI-Workloads optimieren.


Quelle: Kubernetes Blog

ayedo Alien Kubernetes Hat

Hosten Sie Ihre Apps bei ayedo

Profitieren Sie von skalierbarem App Hosting in Kubernetes, hochverfügbarem Ingress Loadbalancing und erstklassigem Support durch unser Plattform Team. Mit der ayedo Cloud können Sie sich wieder auf das konzentrieren, was Sie am besten können: Software entwickeln.

Jetzt ausprobieren →

Ähnliche Inhalte

Alle Blogs →



ayedo Redaktion · 06.06.2025 · ⏳ 2 Minuten

Wie Sie sicherstellen, dass Ihr Sidecar-Container zuerst startet

Einführung in die Verwaltung von Sidecar-Containern in Kubernetes In der Welt von Kubernetes sind Sidecar-Container nützliche Helfer, die Funktionen erweitern oder zusätzliche Aufgaben für die …

Lesen →

Wie Sie sicherstellen, dass Ihr Sidecar-Container zuerst startet
ayedo Redaktion · 05.06.2025 · ⏳ 2 Minuten

Gateway API v1.3.0: Neue Funktionen für flexibles Request Mirroring und mehr!

Wir freuen uns, die allgemeine Verfügbarkeit der Gateway API v1.3.0 bekanntzugeben! Diese Version wurde am 24. April 2025 veröffentlicht und bringt spannende neue Funktionen mit sich. Was ändert sich …

Lesen →

Gateway API v1.3.0: Neue Funktionen für flexibles Request Mirroring und mehr!
Katrin Peter · 03.06.2025 · ⏳ 2 Minuten

Application Performance sollte messbar sein — jederzeit, in Echtzeit

Wer Anwendungen produktiv betreibt, braucht keine schönen Dashboards, sondern harte Daten. Performance-Probleme entstehen nie dann, wenn Zeit für Debugging ist. Sie kommen genau dann, wenn Systeme …

Lesen →

Application Performance sollte messbar sein — jederzeit, in Echtzeit
Katrin Peter · 03.06.2025 · ⏳ 2 Minuten

Warum betreibt ihr eure App eigentlich noch selbst?

Die Frage stellt sich immer wieder. Entwicklerteams liefern Features, optimieren Releases, bauen saubere Architekturen — und dann hängen sie trotzdem noch in der Infrastruktur. Kubernetes-Cluster …

Lesen →

Warum betreibt ihr eure App eigentlich noch selbst?
Katrin Peter · 03.06.2025 · ⏳ 2 Minuten

IIoT-Daten nützen nichts, wenn sie in der Maschine vergammeln

Die meisten IIoT-Projekte scheitern nicht an den Maschinen. Die Sensorik läuft. Die Steuerungen liefern Daten. Die Netzwerke übertragen Pakete. Das Problem beginnt eine Ebene höher: Die Daten landen …

Lesen →

IIoT-Daten nützen nichts, wenn sie in der Maschine vergammeln

Interessiert an weiteren Inhalten? Hier gehts zu allen Blogs →


Noch Fragen? Melden Sie sich!

Unsere DevOps-Experten antworten in der Regel innerhalb einer Stunde.

Zu Gen-Z für E-Mail? Einfach mal Discord versuchen. Unter +49 800 000 3706 können Sie unter Angabe Ihrer Kontaktdaten auch einen Rückruf vereinbaren. Bitte beachten Sie, dass es keine Möglichkeit gibt, uns telefonisch direkt zu erreichen. Bitte gar nicht erst versuchen. Sollten Sie dennoch Interesse an synchroner Verfügbarkeit via Telefon haben, empfehlen wir Ihnen unseren Priority Support.