Die Plattform im Modell: Wie Cloud Native KI-Engineering in der Produktion unterstützt
Quelle: CNCF Blog
2 Minuten Lesezeit

Die Plattform im Modell: Wie Cloud Native KI-Engineering in der Produktion unterstützt

AI-Workloads finden zunehmend Anwendung in Produktionsumgebungen auf Kubernetes, jedoch stehen viele Teams vor Herausforderungen beim Übergang von Modellen zu zuverlässigen Systemen. D

TL;DR

AI-Workloads finden zunehmend Anwendung in Produktionsumgebungen auf Kubernetes, jedoch stehen viele Teams vor Herausforderungen beim Übergang von Modellen zu zuverlässigen Systemen. Die Cloud-Native-Ökosystem bietet eine Vielzahl von Tools und Standards, um diesen Übergang zu erleichtern, einschließlich dynamischer Ressourcenallokation, Inferenz-Routing und Observabilität.

Hauptinhalt

Die Disziplin des AI-Engineerings konzentriert sich auf den Aufbau zuverlässiger, produktionsgerechter Systeme, die AI-Modelle als Komponenten nutzen. Dies geht über das Training von Modellen und das Design von Prompts hinaus und umfasst die operativen Herausforderungen, die Teams bei der Durchführung von Inferenz in großem Maßstab begegnen. Wichtige Aspekte sind die Bereitstellung von Modellen mit niedriger Latenz und hoher Verfügbarkeit, effizientes Scheduling von GPU- und Beschleuniger-Ressourcen, sowie das Management von Modellversionen und Rollouts in mehrmandantenfähigen Umgebungen.

Die Cloud-Native-Umgebung hat sich über die Jahre hinweg entwickelt und bietet viele Lösungen für diese Infrastrukturprobleme. Kubernetes hat sich als die zentrale Orchestrierungsschicht für AI-Inferenz und -Training etabliert. Eine aktuelle Umfrage zeigt, dass 82 % der Container-Nutzer Kubernetes in der Produktion einsetzen. Eine bedeutende Neuerung ist die dynamische Ressourcenallokation (DRA), die in Kubernetes 1.34 in den allgemeinen verfügbaren Status übergegangen ist. DRA ermöglicht eine präzisere und topology-bewusste GPU-Zuteilung.

Für das Routing von Inferenzanfragen steht die Inference Gateway API zur Verfügung, die Kubernetes-native APIs bereitstellt, um Anfragen basierend auf Modellnamen und Endpunktgesundheit zu steuern. Dies ermöglicht es Plattformteams, mehrere GenAI-Workloads auf gemeinsamen Modellserver-Pools zu betreiben, was die Ressourcennutzung optimiert.

Im Bereich der Observabilität sind OpenTelemetry und Prometheus nach wie vor entscheidend. AI-Workloads bringen neue Metriken mit sich, die neben den traditionellen Infrastrukturmetriken erfasst werden müssen. Tools wie der inference-perf-Benchmark helfen, Leistungsmetriken von großen Sprachmodellen zu standardisieren und in Prometheus zu integrieren.

Kubeflow hat sich als wichtiges Projekt etabliert, das Pipeline-Orchestrierung, Experimentverfolgung und Modellbereitstellung bietet. Kueue unterstützt die Job-Queue und faire Planung für Batch- und Trainings-Workloads. Für Governance und Sicherheit sorgen Open Policy Agent (OPA) sowie SPIFFE/SPIRE, die die notwendigen Governance-Primitives für den produktiven Einsatz von AI bereitstellen.

Technische Details/Implikationen

Die Herausforderungen, die sich aus der Integration von AI in Cloud-Native-Umgebungen ergeben, erfordern ein tiefes Verständnis der neuen Arbeitslastmuster. AI-Entwickler müssen sich mit Kubernetes vertraut machen, insbesondere mit der Inferenz-Serving-Architektur. Die Verwendung von DRA zur Verwaltung von GPU-Ressourcen und die Instrumentierung mit OpenTelemetry sind von entscheidender Bedeutung, um die Effizienz zu maximieren. Plattformingenieure müssen die Anforderungen an die Autoskalierung basierend auf Token-Durchsatz verstehen, um eine optimale Leistung sicherzustellen.

Fazit/Ausblick

Die Kluft zwischen AI-Praktikern und Cloud-Native-Praktikern muss geschlossen werden, um die Effizienz und Zuverlässigkeit der AI-Workloads in Produktionsumgebungen zu steigern. Die Integration bewährter Cloud-Native-Praktiken in AI-Projekte wird entscheidend sein, um die Herausforderungen der Zukunft zu meistern.

Originalartikel

Veröffentlicht von CNCF Blog

Zum Original-Artikel

Automatisierte Zusammenfassung

Dieser Beitrag wurde automatisch aus dem englischsprachigen Original erstellt und auf Deutsch zusammengefasst. Wir bieten diesen Service an, um Sie bei der oft zerklüfteten und überwiegend englischsprachigen News-Situation im Bereich Cloud-Native Software, Souveräne Cloud, Kubernetes und Container-Technologien zeitnah auf Deutsch zu informieren.

Ähnliche Artikel