Server cloud per Ollama in Europa: guida AI self-hosted EU

Server cloud per Ollama in Europa: guida AI self-hosted EU

Server cloud per Ollama in Europa: guida AI self-hosted EU

Ollama e il modo piu veloce per far girare un LLM locale - un singolo comando installa il runtime, scarica un modello ed espone un'API compatibile con OpenAI. Per i team europei, eseguire Ollama su un server cloud EU significa che tutta l'inferenza AI rimane sotto giurisdizione UE, soddisfacendo i requisiti GDPR.

Perche eseguire Ollama su un server cloud EU

L'hosting EU e importante perche Ollama funge da endpoint di inferenza per le tue applicazioni. Ogni prompt inviato dai tuoi utenti passa attraverso questo server. Ai sensi del GDPR, se quei prompt contengono dati personali, l'inferenza deve avvenire su infrastruttura sotto giurisdizione UE. Un server cloud DCXV EU con Ollama ti da un endpoint AI privato e conforme.

Scegliere il modello giusto

  • llama3.1:8b - migliore per chat, riassunto, Q&A. 4-5 GB VRAM in Q4.
  • llama3.1:70b - qualita vicina a GPT-4. Richiede 40+ GB VRAM.
  • mistral:7b - veloce, efficiente, eccellente per output strutturato.
  • nomic-embed-text - modello di embedding per pipeline RAG. 274 MB.
  • codellama:13b - generazione e revisione di codice.
  • phi3:mini - molto veloce su CPU, utile per la classificazione.

Specifiche minime per Ollama

  • Solo CPU (modelli piccoli, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
  • CPU produzione (richieste parallele) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
  • GPU entry (7B-13B a FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
  • GPU produzione (modelli 34B+) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM

Configurazione DCXV raccomandata

I server cloud DCXV funzionano su infrastruttura Tier III in UE:

  • Server CPU, 16 vCPU / 32 GB RAM - serve modelli 7B a 18-28 token/s
  • Server GPU, 16-24 GB VRAM - serve modelli 7B-13B a 80-120 token/s
  • Server GPU, 80 GB VRAM - serve modelli 70B a 25-40 token/s

Contatta sales@dcxv.com per istanze GPU o CPU.

Comandi di configurazione rapida

# Installare Ollama su Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh

# Scaricare modelli
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list
# Configurare Ollama per la rete privata
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"

sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags
# Usare l'API compatibile con OpenAI
curl http://10.0.0.5:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Cosè il GDPR?"}]
  }'

Prestazioni attese

CPU (16 vCPU), llama3.1:8b Q4_K_M:

  • Generazione (richiesta singola) - 18-28 token/s
  • Throughput embedding - 250-400 vettori/s

GPU (16 GB VRAM), llama3.1:8b FP16:

  • Generazione (richiesta singola) - 80-120 token/s
  • Tempo al primo token - 100-250 ms

Conclusione

Ollama su un server cloud DCXV EU fornisce al tuo team un endpoint AI privato e conforme al GDPR. L'installazione richiede meno di cinque minuti.

Esegui Claude Code, Codex e Grok CLI sul tuo server cloud
cloudaivps

Esegui Claude Code, Codex e Grok CLI sul tuo server cloud

Trasforma un server cloud Debian o Ubuntu in un sandbox per agenti IA come Claude Code, Codex e Grok CLI. Programma da qualsiasi luogo.

Ripristina un server cloud a un backup recente in due clic
backuprecoverycloudCloud

Ripristina un server cloud a un backup recente in due clic

I server cloud DCXV ora consentono di ripristinare un backup automatico recente dal pannello - scegli un backup, conferma e la VM torna in pochi minuti.

Gestisci gli account dei clienti da un solo accesso - la dashboard reseller di DCXV
resellercontrol-panelcloudCloud

Gestisci gli account dei clienti da un solo accesso - la dashboard reseller di DCXV

La nuova dashboard reseller di DCXV consente di creare sottoaccount dei clienti, monitorare saldi e server, e accedere a ciascuno da un solo pannello.

GLM-5.2 - Il nuovo LLM open weights di riferimento
aillmopen-sourceglmCloud

GLM-5.2 - Il nuovo LLM open weights di riferimento

GLM-5.2 di Z.ai e il nuovo modello open weights di riferimento sull'Artificial Analysis Intelligence Index, con 51 punti, licenza MIT e contesto da 1M token.

Crea uno snapshot prima delle modifiche rischiose, torna indietro all'istante
snapshotcloudCloud

Crea uno snapshot prima delle modifiche rischiose, torna indietro all'istante

Crea uno snapshot su richiesta del tuo server cloud DCXV prima di ogni modifica rischiosa e torna indietro in pochi secondi. Aggiungi uno snapshot nel pannello con un clic.