Cloud-Server fur Ollama in Europa: Self-Host-KI-EU-Leitfaden

Cloud-Server fur Ollama in Europa: Self-Host-KI-EU-Leitfaden

Cloud-Server fur Ollama in Europa: Self-Host-KI-EU-Leitfaden

Ollama ist der schnellste Weg, ein lokales LLM zum Laufen zu bringen - ein einziger Befehl installiert die Runtime, ladt ein Modell herunter und stellt eine OpenAI-kompatible API bereit. Fur europaische Teams bedeutet das Ausfuhren von Ollama auf einem EU-Cloud-Server, dass alle KI-Inferenz unter EU-Gerichtsbarkeit bleibt und DSGVO-Anforderungen erfullt werden.

Warum Ollama auf einem EU-Cloud-Server ausfuhren

EU-Hosting ist wichtig, weil Ollama als Inferenz-Endpunkt fur Ihre Anwendungen dient. Jeder Prompt, den Ihre Nutzer senden, lauft durch diesen Server. Gemas DSGVO muss diese Inferenz auf Infrastruktur unter EU-Gerichtsbarkeit stattfinden. Ein DCXV EU-Cloud-Server mit Ollama gibt Ihnen einen konformen, privaten KI-Endpunkt.

Das richtige Modell wahlen

  • llama3.1:8b - bestes Allroundmodell fur Chat, Zusammenfassung, Q&A. 4-5 GB VRAM bei Q4.
  • llama3.1:70b - nahe GPT-4-Qualitat. Benotigt 40+ GB VRAM.
  • mistral:7b - schnell, effizient, hervorragend fur strukturierte Ausgaben.
  • nomic-embed-text - Embedding-Modell fur RAG-Pipelines. 274 MB.
  • codellama:13b - Code-Generierung und -Uberprufung.
  • phi3:mini - sehr schnell auf CPU, nutzlich fur Klassifizierung.

Mindestanforderungen fur Ollama

  • Nur CPU (kleine Modelle, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
  • CPU Produktion (parallele Anfragen) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
  • GPU Einstieg (7B-13B bei FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
  • GPU Produktion (34B+ Modelle) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM

Empfohlene DCXV-Konfiguration

DCXV Cloud-Server laufen auf Tier-III-EU-Infrastruktur:

  • CPU-Server, 16 vCPU / 32 GB RAM - bedient 7B-Modelle mit 18-28 Token/s
  • GPU-Server, 16-24 GB VRAM - bedient 7B-13B-Modelle mit 80-120 Token/s
  • GPU-Server, 80 GB VRAM - bedient 70B-Modelle mit 25-40 Token/s

Kontaktieren Sie sales@dcxv.com fur GPU- oder CPU-Instanzen.

Schnell-Setup-Befehle

# Ollama auf Ubuntu 22.04 installieren
curl -fsSL https://ollama.com/install.sh | sh

# Modelle herunterladen
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list
# Ollama fur privates Netzwerk konfigurieren
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"

sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags
# OpenAI-kompatible API verwenden
curl http://10.0.0.5:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Was ist DSGVO?"}]
  }'

Erwartete Leistungswerte

CPU (16 vCPU), llama3.1:8b Q4_K_M:

  • Einzelanfrage-Generierung - 18-28 Token/s
  • Embedding-Durchsatz - 250-400 Vektoren/s

GPU (16 GB VRAM), llama3.1:8b FP16:

  • Einzelanfrage-Generierung - 80-120 Token/s
  • Zeit bis zum ersten Token - 100-250 ms

Fazit

Ollama auf einem DCXV EU-Cloud-Server gibt Ihrem Team einen privaten, DSGVO-konformen KI-Endpunkt. Die Installation dauert unter funf Minuten.

Claude Code, Codex und Grok CLI auf Ihrem eigenen Cloud-Server ausführen
cloudaivps

Claude Code, Codex und Grok CLI auf Ihrem eigenen Cloud-Server ausführen

Machen Sie einen Debian- oder Ubuntu-Cloud-Server zur Sandbox für KI-Coding-Agenten wie Claude Code, Codex und Grok CLI. Coden Sie von überall.

Einen Cloud-Server in zwei Klicks auf ein aktuelles Backup zurucksetzen
backuprecoverycloudCloud

Einen Cloud-Server in zwei Klicks auf ein aktuelles Backup zurucksetzen

DCXV Cloud-Server lassen Sie jetzt ein aktuelles automatisches Backup direkt aus der Konsole wiederherstellen - Backup wahlen, bestatigen, und die VM wird in Minuten zuruckgesetzt.

Kundenkonten mit einem Login verwalten - das DCXV Reseller-Dashboard
resellercontrol-panelcloudCloud

Kundenkonten mit einem Login verwalten - das DCXV Reseller-Dashboard

Das neue DCXV Reseller-Dashboard ermoglicht es, Kunden-Unterkonten zu erstellen, deren Guthaben und Server zu verfolgen und sich von einer Konsole aus in jedes einzuloggen.

GLM-5.2 - Das neue fuhrende Open-Weights-LLM
aillmopen-sourceglmCloud

GLM-5.2 - Das neue fuhrende Open-Weights-LLM

GLM-5.2 von Z.ai ist das neue fuhrende Open-Weights-Modell im Artificial Analysis Intelligence Index, mit 51 Punkten, MIT-Lizenz und 1M Token Kontext.

Snapshot vor riskanten Anderungen, sofort zurucksetzen
snapshotcloudCloud

Snapshot vor riskanten Anderungen, sofort zurucksetzen

Erstellen Sie vor jeder riskanten Anderung einen Snapshot Ihres DCXV Cloud-Servers und setzen Sie ihn in Sekunden zuruck. Snapshot in der Konsole mit einem Klick hinzufugen.