Nextcloud souverän betreiben: Warum das „Wie“ entscheidend ist
Nextcloud souverän betreiben: Warum das „Wie“ entscheidend ist Nextcloud steht für digitale …
TL;DR
Künstliche Intelligenz (KI) ist der neue Standard, aber die Nutzung von Cloud-APIs wie OpenAI (ChatGPT) oder Anthropic hat einen massiven Haken: Datenschutz und “Data Gravity”. Sensible Unternehmensdaten, Quellcode oder Kundeninformationen an US-Server zu senden, ist oft ein DSGVO-Albtraum und ein strategisches Risiko. Ollama ändert die Spielregeln. Es ist eine extrem leichtgewichtige Engine, um potente Open-Source-Modelle (wie Meta’s Llama 3, Mistral oder Gemma) direkt im eigenen Cluster auszuführen. Wer Ollama nutzt, erhält die volle Power von Generativer KI – aber ohne dass auch nur ein einziges Byte das eigene Netzwerk verlässt.
Wenn Entwickler heute KI-Features in Applikationen einbauen, nutzen sie meist externe APIs. Das bedeutet: Jeder Prompt, jeder Kontext und jede hochgeladene PDF-Datei verlässt Ihre Infrastruktur, wandert durch das Internet und wird auf den Servern eines Drittanbieters verarbeitet.
Ollama bringt das Gehirn zu den Daten, nicht die Daten zum Gehirn.
Das größte Hindernis für den Wechsel zu lokaler KI war bisher der Code. Viele Apps sind fest auf die SDKs von OpenAI (z.B. in Python oder Node.js) verdrahtet.
Ollama löst dieses Problem elegant.
BASE_URL in Ihrem Code von https://api.openai.com/v1 auf die interne Adresse Ihres Ollama-Services (z.B. http://ollama.ai-namespace.svc.cluster.local:11434/v1). Die Applikation “denkt”, sie spricht mit ChatGPT, spricht aber in Wahrheit mit Ihrem privaten Llama 3 Modell.Die Open-Source-KI-Welt entwickelt sich rasant. Heute ist Modell A das beste, morgen Modell B. Bei SaaS-Anbietern sind Sie an deren Modell-Zyklen gebunden.
ollama run mistral) reicht, und das neue Modell steht bereit. Sie können für Coden, Übersetzungen oder Text-Zusammenfassungen jeweils spezialisierte, kleinere Modelle nutzen.Hier entscheidet sich, ob KI für Sie eine unkalkulierbare laufende Ausgabe oder ein skalierbares Infrastruktur-Asset wird.
Szenario A: OpenAI API (Die Token-Kostenfalle)
Cloud-APIs sind bequem für Prototypen, aber tückisch bei Skalierung.
Szenario B: Ollama mit Managed Kubernetes von ayedo
Im ayedo App-Katalog wird Ollama als robuster Microservice bereitgestellt.
| Aspekt | Cloud AI (OpenAI / Anthropic) | ayedo (Managed Ollama) |
|---|---|---|
| Kosten | Pay-per-Token (Unberechenbar) | Infrastruktur (Flatrate) |
| Datenschutz / DSGVO | Hochriskant (US-Server) | 100% Sicher (In-Cluster) |
| Modell-Auswahl | Vendor-spezifisch (Closed Source) | Freie Wahl (Llama 3, Mistral, etc.) |
| App-Integration | Proprietäre SDKs | OpenAI API Kompatibel |
| Abhängigkeit | Hoch (Vendor Lock-in) | Keine (Open Source) |
| Internet-Zwang | Ja (Always-on) | Nein (Air-Gapped möglich) |
Ist ein Open-Source-Modell so gut wie GPT-4?
Für generelle, hochkomplexe Logik-Aufgaben ist GPT-4 (oder Claude 3.5) oft noch leicht im Vorteil. ABER: Für 90% der Business-Use-Cases (Texte zusammenfassen, Support-Tickets klassifizieren, Daten aus JSON extrahieren, RAG-Abfragen auf internen Dokumenten) sind Modelle wie Llama 3 (8B oder 70B) oder Mistral absolut gleichwertig – und dabei viel schneller und billiger.
Brauche ich zwingend teure GPUs (Grafikkarten)?
Nicht zwingend, aber es ist stark empfohlen. Ollama kann kleinere Modelle (wie Llama 3 8B) auch rein auf der CPU berechnen, was für einfache Hintergrund-Jobs reicht (ca. 5-10 Token pro Sekunde). Für interaktive Chat-Anwendungen, bei denen der Nutzer in Echtzeit Antworten erwartet, sind im ayedo Cluster Nodes mit NVIDIA-GPUs (z.B. T4 oder A10) der Standard, um blitzschnelle Inferenzen zu garantieren.
Wie groß sind die Modelle auf der Festplatte?
Erstaunlich klein dank Quantisierung (Kompression). Ein sehr fähiges 8-Milliarden-Parameter-Modell braucht oft nur 4 bis 5 Gigabyte Speicherplatz. Ein extrem leistungsstarkes 70B-Modell liegt bei ca. 40 Gigabyte.
Gibt es auch ein Chat-Interface für die Mitarbeiter?
Ollama selbst ist nur die “Engine” (die API). Im ayedo Stack kombinieren wir Ollama oft mit Frontends wie Open WebUI. Damit bekommen Ihre Mitarbeiter eine Oberfläche, die exakt so aussieht und sich so anfühlt wie ChatGPT – nur dass alle Daten sicher auf Ihren Servern bleiben.
Nextcloud souverän betreiben: Warum das „Wie“ entscheidend ist Nextcloud steht für digitale …
TL;DR KServe wurde als CNCF-Inkubationsprojekt akzeptiert und bietet eine standardisierte Plattform …
TL;DR Die Authentifizierung von Registry-Spiegeln in Kubernetes wird durch die Verwendung von CRI-O …