Docker Model Runner bringt vLLM nach macOS mit Apple Silicon
Quelle: Docker Blog
2 Minuten Lesezeit

Docker Model Runner bringt vLLM nach macOS mit Apple Silicon

Docker Model Runner unterstützt nun vllm-metal, ein neues Backend, das die Ausführung von vLLM-Inferenz auf macOS mit Apple Silicon ermöglicht. Diese Erweiterung nutzt die Metal-GPU-Technologie von Ap

TL;DR

Docker Model Runner unterstützt nun vllm-metal, ein neues Backend, das die Ausführung von vLLM-Inferenz auf macOS mit Apple Silicon ermöglicht. Diese Erweiterung nutzt die Metal-GPU-Technologie von Apple, um MLX-Modelle effizient zu bedienen und bietet eine einheitliche API für OpenAI-kompatible Anwendungen.

Hauptinhalt

Docker hat vllm-metal entwickelt, um die Nutzung des vLLM-Inferenz-Engines auf macOS mit M-Serie-Chips zu ermöglichen. Dieses neue Backend integriert sich nahtlos in die bestehende Docker-Umgebung und bietet Entwicklern die Möglichkeit, MLX-Modelle mit der gleichen API zu verwenden, die auch für OpenAI- und Anthropic-Anwendungen genutzt wird.

vllm-metal fungiert als Plugin für vLLM und kombiniert Apples MLX-Maschinenlern-Framework mit PyTorch. Diese Integration ermöglicht eine vereinheitlichte Berechnungspipeline, die direkt in die Kernarchitektur von vLLM integriert ist. Die Architektur besteht aus mehreren Schichten: Der Kern von vLLM bleibt unverändert, während eine Plugin-Schicht, die aus MetalPlatform, MetalWorker und MetalModelRunner besteht, die spezifischen Anforderungen von Apple Silicon adressiert. Darunter agiert MLX für die Inferenz, während PyTorch für das Laden von Modellen und die Gewichtskonvertierung zuständig ist.

Ein entscheidender Vorteil von vllm-metal auf Apple Silicon ist die Nutzung von Unified Memory. Im Gegensatz zu diskreten GPUs, bei denen Daten zwischen CPU- und GPU-Speicher kopiert werden müssen, teilt sich bei Apple Silicon der Arbeitsspeicher. Dies ermöglicht zero-copy Tensor-Operationen, die die Effizienz erhöhen und den Speicherverbrauch bei der Verarbeitung längerer Sequenzen reduzieren.

vllm-metal ist darauf ausgelegt, MLX-Modelle zu verarbeiten, die von der mlx-community auf Hugging Face bereitgestellt werden. Diese Modelle sind speziell für das MLX-Framework optimiert und nutzen die Metal-GPU-Beschleunigung voll aus. Docker Model Runner leitet automatisch MLX-Modelle an vllm-metal weiter, sofern das Backend installiert ist.

Technische Details/Implikationen

Die Implementierung von vllm-metal erfordert, dass die Software nativ auf dem Host-System läuft, da der Zugriff auf die Metal-GPU direkte Hardwarezugriffe benötigt. Bei der Installation des Backends zieht Docker Model Runner ein Docker-Image von Hub, das eine vollständige Python 3.12-Umgebung mit vllm-metal und allen benötigten Abhängigkeiten enthält. Nach der Installation wird das vllm_metal-Modul importiert, um die Funktionsfähigkeit zu überprüfen. Bei eingehenden Anfragen für kompatible Modelle startet der Scheduler von Docker Model Runner einen vllm-metal-Serverprozess, der über TCP kommuniziert und die standardisierte OpenAI-API bedient.

vllm-metal unterstützt safetensors-Modelle im MLX-Format, die von der mlx-community auf Hugging Face verwaltet werden. Diese quantisierten Modelle sind speziell für die Nutzung auf Apple Silicon optimiert und bieten eine breite Palette an Einsatzmöglichkeiten.

Fazit/Ausblick

Die Einführung von vllm-metal in Docker Model Runner stellt einen bedeutenden Fortschritt für die Nutzung von LLM-Inferenz auf macOS dar und eröffnet Entwicklern neue Möglichkeiten zur Optimierung ihrer Machine-Learning-Workflows auf Apple Silicon.

Originalartikel

Veröffentlicht von Docker Blog

Zum Original-Artikel

Automatisierte Zusammenfassung

Dieser Beitrag wurde automatisch aus dem englischsprachigen Original erstellt und auf Deutsch zusammengefasst. Wir bieten diesen Service an, um Sie bei der oft zerklüfteten und überwiegend englischsprachigen News-Situation im Bereich Cloud-Native Software, Souveräne Cloud, Kubernetes und Container-Technologien zeitnah auf Deutsch zu informieren.

Ähnliche Artikel