Server cloud per Ollama in Europa: guida AI self-hosted EU
Ollama e il modo piu veloce per far girare un LLM locale - un singolo comando installa il runtime, scarica un modello ed espone un’API compatibile con OpenAI. Per i team europei, eseguire Ollama su un server cloud EU significa che tutta l’inferenza AI rimane sotto giurisdizione UE, soddisfacendo i requisiti GDPR.
Perche eseguire Ollama su un server cloud EU
L’hosting EU e importante perche Ollama funge da endpoint di inferenza per le tue applicazioni. Ogni prompt inviato dai tuoi utenti passa attraverso questo server. Ai sensi del GDPR, se quei prompt contengono dati personali, l’inferenza deve avvenire su infrastruttura sotto giurisdizione UE. Un server cloud DCXV EU con Ollama ti da un endpoint AI privato e conforme.
Scegliere il modello giusto
- llama3.1:8b - migliore per chat, riassunto, Q&A. 4-5 GB VRAM in Q4.
- llama3.1:70b - qualita vicina a GPT-4. Richiede 40+ GB VRAM.
- mistral:7b - veloce, efficiente, eccellente per output strutturato.
- nomic-embed-text - modello di embedding per pipeline RAG. 274 MB.
- codellama:13b - generazione e revisione di codice.
- phi3:mini - molto veloce su CPU, utile per la classificazione.
Specifiche minime per Ollama
- Solo CPU (modelli piccoli, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
- CPU produzione (richieste parallele) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
- GPU entry (7B-13B a FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
- GPU produzione (modelli 34B+) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM
Configurazione DCXV raccomandata
I server cloud DCXV funzionano su infrastruttura Tier III in UE:
- Server CPU, 16 vCPU / 32 GB RAM - serve modelli 7B a 18-28 token/s
- Server GPU, 16-24 GB VRAM - serve modelli 7B-13B a 80-120 token/s
- Server GPU, 80 GB VRAM - serve modelli 70B a 25-40 token/s
Contatta sales@dcxv.com per istanze GPU o CPU.
Comandi di configurazione rapida
# Installare Ollama su Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh
# Scaricare modelli
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list # Configurare Ollama per la rete privata
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"
sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags # Usare l'API compatibile con OpenAI
curl http://10.0.0.5:11434/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Cosè il GDPR?"}]
}' Prestazioni attese
CPU (16 vCPU), llama3.1:8b Q4_K_M:
- Generazione (richiesta singola) - 18-28 token/s
- Throughput embedding - 250-400 vettori/s
GPU (16 GB VRAM), llama3.1:8b FP16:
- Generazione (richiesta singola) - 80-120 token/s
- Tempo al primo token - 100-250 ms
Conclusione
Ollama su un server cloud DCXV EU fornisce al tuo team un endpoint AI privato e conforme al GDPR. L’installazione richiede meno di cinque minuti.





