Serveur cloud pour Ollama en Europe: guide IA auto-hebergee EU
Ollama est le moyen le plus rapide de faire tourner un LLM local - une seule commande installe le runtime, telecharge un modele et expose une API compatible OpenAI. Pour les equipes europeennes, executer Ollama sur un serveur cloud EU signifie que toute l’inference IA reste sous juridiction europeenne, satisfaisant les exigences RGPD.
Pourquoi executer Ollama sur un serveur cloud EU
L’hebergement EU est important car Ollama sert de point de terminaison d’inference pour vos applications. Chaque prompt envoye par vos utilisateurs passe par ce serveur. Selon le RGPD, si ces prompts contiennent des donnees personnelles, l’inference doit se produire sur une infrastructure sous juridiction europeenne. Un serveur cloud DCXV EU avec Ollama vous donne un point de terminaison IA prive et conforme.
Choisir le bon modele
- llama3.1:8b - meilleur modele polyvalent pour chat, resume, Q&A. 4-5 Go VRAM en Q4.
- llama3.1:70b - qualite proche de GPT-4. Necessite 40+ Go VRAM.
- mistral:7b - rapide, efficace, excellent pour la sortie structuree.
- nomic-embed-text - modele d’embedding pour pipelines RAG. 274 Mo.
- codellama:13b - generation et revue de code.
- phi3:mini - tres rapide sur CPU, utile pour la classification.
Specifications minimales pour Ollama
- CPU uniquement (petits modeles, 7B Q4) - 8 vCPU, 16 Go RAM, 100 Go NVMe SSD
- CPU production (requetes paralleles) - 16 vCPU, 32 Go RAM, 200 Go NVMe SSD
- GPU entree (7B-13B a FP16) - 4 vCPU, 16 Go RAM, 16-24 Go VRAM
- GPU production (modeles 34B+) - 8 vCPU, 64 Go RAM, 40-80 Go VRAM
Configuration DCXV recommandee
Les serveurs cloud DCXV fonctionnent sur infrastructure Tier III en UE:
- Serveur CPU, 16 vCPU / 32 Go RAM - sert des modeles 7B a 18-28 tokens/s
- Serveur GPU, 16-24 Go VRAM - sert des modeles 7B-13B a 80-120 tokens/s
- Serveur GPU, 80 Go VRAM - sert des modeles 70B a 25-40 tokens/s
Contactez sales@dcxv.com pour des instances GPU ou CPU.
Commandes de configuration rapide
# Installer Ollama sur Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh
# Telecharger des modeles
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list # Configurer Ollama pour le reseau prive
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"
sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags # Utiliser l'API compatible OpenAI
curl http://10.0.0.5:11434/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Quest-ce que le RGPD?"}]
}' Performances attendues
CPU (16 vCPU), llama3.1:8b Q4_K_M:
- Generation (requete unique) - 18-28 tokens/s
- Debit d’embeddings - 250-400 vecteurs/s
GPU (16 Go VRAM), llama3.1:8b FP16:
- Generation (requete unique) - 80-120 tokens/s
- Temps au premier token - 100-250 ms
Conclusion
Ollama sur un serveur cloud DCXV EU donne a votre equipe un point de terminaison IA prive et conforme au RGPD. L’installation prend moins de cinq minutes.





