Servidor cloud para Ollama en Europa: guia de IA autoalojada EU
Ollama es la forma mas rapida de poner en marcha un LLM local: un solo comando instala el runtime, descarga un modelo y expone una API compatible con OpenAI. Para los equipos europeos, ejecutar Ollama en un servidor cloud de la UE significa que toda la inferencia de IA permanece bajo jurisdiccion de la UE, cumpliendo con el RGPD.
Por que ejecutar Ollama en un servidor cloud de la UE
El hosting en la UE importa porque Ollama sirve como endpoint de inferencia para tus aplicaciones. Cada prompt que envian tus usuarios pasa por este servidor. Segun el RGPD, si esos prompts contienen datos personales, la inferencia debe ocurrir en infraestructura bajo jurisdiccion de la UE. Un servidor cloud DCXV EU con Ollama te da un endpoint de IA privado y conforme.
Elegir el modelo adecuado
- llama3.1:8b - mejor para chat, resumen, Q&A. 4-5 GB VRAM en Q4.
- llama3.1:70b - calidad cercana a GPT-4. Requiere 40+ GB VRAM.
- mistral:7b - rapido, eficiente, excelente para salida estructurada.
- nomic-embed-text - modelo de embedding para pipelines RAG. 274 MB.
- codellama:13b - generacion y revision de codigo.
- phi3:mini - muy rapido en CPU, util para clasificacion.
Especificaciones minimas para Ollama
- Solo CPU (modelos pequenos, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
- CPU produccion (solicitudes paralelas) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
- GPU entrada (7B-13B a FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
- GPU produccion (modelos 34B+) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM
Configuracion recomendada de DCXV
Los servidores cloud de DCXV funcionan en infraestructura Tier III en la UE:
- Servidor CPU, 16 vCPU / 32 GB RAM - sirve modelos 7B a 18-28 tokens/s
- Servidor GPU, 16-24 GB VRAM - sirve modelos 7B-13B a 80-120 tokens/s
- Servidor GPU, 80 GB VRAM - sirve modelos 70B a 25-40 tokens/s
Contacta sales@dcxv.com para instancias GPU o CPU.
Comandos de configuracion rapida
# Instalar Ollama en Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh
# Descargar modelos
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list # Configurar Ollama para red privada
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"
sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags # Usar la API compatible con OpenAI
curl http://10.0.0.5:11434/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Que es el RGPD?"}]
}' Rendimiento esperado
CPU (16 vCPU), llama3.1:8b Q4_K_M:
- Generacion (solicitud unica) - 18-28 tokens/s
- Throughput de embeddings - 250-400 vectores/s
GPU (16 GB VRAM), llama3.1:8b FP16:
- Generacion (solicitud unica) - 80-120 tokens/s
- Tiempo al primer token - 100-250 ms
Conclusion
Ollama en un servidor cloud DCXV de la UE da a tu equipo un endpoint de IA privado y conforme al RGPD. La instalacion tarda menos de cinco minutos.





