Server cloud per Ollama in Europa: guida AI self-hosted EU

Ollama e il modo piu veloce per far girare un LLM locale - un singolo comando installa il runtime, scarica un modello ed espone un'API compatibile con OpenAI. Per i team europei, eseguire Ollama su un server cloud EU significa che tutta l'inferenza AI rimane sotto giurisdizione UE, soddisfacendo i requisiti GDPR.

Perche eseguire Ollama su un server cloud EU

L'hosting EU e importante perche Ollama funge da endpoint di inferenza per le tue applicazioni. Ogni prompt inviato dai tuoi utenti passa attraverso questo server. Ai sensi del GDPR, se quei prompt contengono dati personali, l'inferenza deve avvenire su infrastruttura sotto giurisdizione UE. Un server cloud DCXV EU con Ollama ti da un endpoint AI privato e conforme.

Scegliere il modello giusto

llama3.1:8b - migliore per chat, riassunto, Q&A. 4-5 GB VRAM in Q4.
llama3.1:70b - qualita vicina a GPT-4. Richiede 40+ GB VRAM.
mistral:7b - veloce, efficiente, eccellente per output strutturato.
nomic-embed-text - modello di embedding per pipeline RAG. 274 MB.
codellama:13b - generazione e revisione di codice.
phi3:mini - molto veloce su CPU, utile per la classificazione.

Specifiche minime per Ollama

Solo CPU (modelli piccoli, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
CPU produzione (richieste parallele) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
GPU entry (7B-13B a FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
GPU produzione (modelli 34B+) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM

Configurazione DCXV raccomandata

I server cloud DCXV funzionano su infrastruttura Tier III in UE:

Server CPU, 16 vCPU / 32 GB RAM - serve modelli 7B a 18-28 token/s
Server GPU, 16-24 GB VRAM - serve modelli 7B-13B a 80-120 token/s
Server GPU, 80 GB VRAM - serve modelli 70B a 25-40 token/s

Contatta sales@dcxv.com per istanze GPU o CPU.

Comandi di configurazione rapida

# Installare Ollama su Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh

# Scaricare modelli
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list

# Configurare Ollama per la rete privata
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"

sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags

# Usare l'API compatibile con OpenAI
curl http://10.0.0.5:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Cosè il GDPR?"}]
  }'

Prestazioni attese

CPU (16 vCPU), llama3.1:8b Q4_K_M:

Generazione (richiesta singola) - 18-28 token/s
Throughput embedding - 250-400 vettori/s

GPU (16 GB VRAM), llama3.1:8b FP16:

Generazione (richiesta singola) - 80-120 token/s
Tempo al primo token - 100-250 ms

Conclusione

Ollama su un server cloud DCXV EU fornisce al tuo team un endpoint AI privato e conforme al GDPR. L'installazione richiede meno di cinque minuti.

ai deepseek llm

DeepSeek V4: modello MoE 1,6T con contesto 1M su server EU

DeepSeek V4 introduce i modelli MoE Pro (1,6T) e Flash (284B) con contesto di 1M token, attenzione ibrida e tre modalita di ragionamento per l'hosting autonomo in UE.

April 24, 2026

cloud ai gpu

Server cloud per Stable Diffusion in Europa: configurazione GPU

Esegui Stable Diffusion su un server cloud EU conforme al GDPR. GPU, configurazione AUTOMATIC1111 e ComfyUI, storage modelli e benchmark di generazione immagini.

April 24, 2026

cloud redis database

Server cloud per Redis in Europa: configurazione EU a bassa latenza

Esegui Redis su un server cloud EU conforme al GDPR. Dimensionamento memoria, modalita di persistenza, cluster e benchmark di latenza per l'Europa.

April 24, 2026

cloud postgresql database

Server cloud per PostgreSQL in Europa

Esegui PostgreSQL su un server cloud EU conforme al GDPR. Confronta specifiche, costi e passaggi di configurazione per ospitare il tuo database in Europa.

April 24, 2026

cloud ai gpu