Ein neuer Ansatz zur Sicherstellung der Agentensicherheit
TL;DR Ein neuer Ansatz zur Sicherstellung der Sicherheit von Coding-Agents ermöglicht deren …
Docker Model Runner integriert jetzt die vLLM-Inferenz-Engine, um eine hochperformante KI-Inferenz zu ermöglichen. Diese Integration erlaubt die Nutzung von Docker-Tools für die Ausführung und Skalierung großer Sprachmodelle (LLMs) auf einer breiten Palette von Hardware, von einfachen bis hin zu leistungsstarken Nvidia-GPUs.
Docker Model Runner hat seine Funktionalitäten erweitert, indem es die vLLM-Inferenz-Engine und Safetensors-Modelle integriert. Diese Entwicklung zielt darauf ab, Entwicklern eine einfache Möglichkeit zu bieten, mit großen Sprachmodellen zu experimentieren und diese in produktiven Umgebungen einzusetzen. Die ursprüngliche Einführung von Docker Model Runner ermöglichte bereits die Nutzung verschiedener Inferenz-Engines, beginnend mit llama.cpp, um die Flexibilität beim Einsatz von Modellen zu erhöhen.
Die vLLM-Engine zeichnet sich durch hohe Durchsatzraten aus und ist als Open-Source-Lösung konzipiert, die speziell für den effizienten Betrieb großer Sprachmodelle entwickelt wurde. Sie wird in der Branche häufig verwendet, um produktionsreife LLMs bereitzustellen, da sie auf Durchsatz, Latenz und Speichereffizienz optimiert ist. Zu den herausragenden Merkmalen von vLLM gehören ein fortschrittlicher Aufmerksamkeitsalgorithmus namens PagedAttention, der den Speicherbedarf minimiert und die GPU-Nutzung maximiert, sowie die Fähigkeit, Batch-Anfragen und Streaming-Ausgaben nativ zu verarbeiten.
Die Integration von vLLM in Docker Model Runner ermöglicht es Entwicklern, ihre KI-Workloads nahtlos von der lokalen Entwicklungsumgebung bis zur Produktion zu skalieren, ohne die gewohnte Docker-Workflow-Umgebung zu verlassen. Die Installation und Ausführung von vLLM-Modellen ist unkompliziert, da keine speziellen Konfigurationen erforderlich sind. Entwickler müssen lediglich den vLLM-Backend installieren und können sofort mit der Nutzung beginnen.
Docker Model Runner unterstützt nun auch zwei der dominierenden offenen Modellformate: Safetensors und GGUF. Während Safetensors für hochperformante Inferenz optimiert ist, bietet GGUF hohe Portabilität und ist ideal für den Einsatz auf Standardhardware. Docker Model Runner verwaltet die Komplexität der Inferenz-Engine, indem es automatisch Anfragen an die richtige Engine basierend auf dem verwendeten Modell weiterleitet.
Die Möglichkeit, zwischen verschiedenen Inferenz-Engines innerhalb eines einheitlichen, portablen Workflows zu wechseln, stellt einen bedeutenden Fortschritt dar. Entwickler können nun lokal mit llama.cpp prototypisieren und problemlos auf vLLM für die Produktion skalieren. Dies fördert die Effizienz und Flexibilität in CI/CD-Workflows und ermöglicht eine konsistente Anwendung von Docker-Befehlen über verschiedene Umgebungen hinweg.
Die vLLM-kompatiblen Modelle sind auf Docker Hub verfügbar und optimiert für Systeme mit der x86_64-Architektur und Nvidia-GPUs. Dies stellt sicher, dass Entwickler von einer stabilen und leistungsfähigen Erfahrung profitieren können.
Die Integration von vLLM in Docker Model Runner ist ein bedeutender Schritt in der Entwicklung von KI-Tools, der es ermöglicht, leistungsstarke Inferenzlösungen effizient zu nutzen und zu skalieren. Zukünftige Entwicklungen könnten weitere Optimierungen und Unterstützung für zusätzliche Hardwareplattformen bieten.
Dieser Beitrag wurde automatisch aus dem englischsprachigen Original erstellt und auf Deutsch zusammengefasst. Wir bieten diesen Service an, um Sie bei der oft zerklüfteten und überwiegend englischsprachigen News-Situation im Bereich Cloud-Native Software, Souveräne Cloud, Kubernetes und Container-Technologien zeitnah auf Deutsch zu informieren.
TL;DR Ein neuer Ansatz zur Sicherstellung der Sicherheit von Coding-Agents ermöglicht deren …
TL;DR Die Sicherung der Software-Lieferkette ist für Unternehmen von entscheidender Bedeutung. …
TL;DR Die Shai Hulud 2.0 Kampagne stellt eine der aggressivsten Angriffe auf die npm-Lieferkette dar …