Servidor cloud para Ollama en Europa: guia de IA autoalojada EU

Servidor cloud para Ollama en Europa: guia de IA autoalojada EU

Servidor cloud para Ollama en Europa: guia de IA autoalojada EU

Ollama es la forma mas rapida de poner en marcha un LLM local: un solo comando instala el runtime, descarga un modelo y expone una API compatible con OpenAI. Para los equipos europeos, ejecutar Ollama en un servidor cloud de la UE significa que toda la inferencia de IA permanece bajo jurisdiccion de la UE, cumpliendo con el RGPD.

Por que ejecutar Ollama en un servidor cloud de la UE

El hosting en la UE importa porque Ollama sirve como endpoint de inferencia para tus aplicaciones. Cada prompt que envian tus usuarios pasa por este servidor. Segun el RGPD, si esos prompts contienen datos personales, la inferencia debe ocurrir en infraestructura bajo jurisdiccion de la UE. Un servidor cloud DCXV EU con Ollama te da un endpoint de IA privado y conforme.

Elegir el modelo adecuado

  • llama3.1:8b - mejor para chat, resumen, Q&A. 4-5 GB VRAM en Q4.
  • llama3.1:70b - calidad cercana a GPT-4. Requiere 40+ GB VRAM.
  • mistral:7b - rapido, eficiente, excelente para salida estructurada.
  • nomic-embed-text - modelo de embedding para pipelines RAG. 274 MB.
  • codellama:13b - generacion y revision de codigo.
  • phi3:mini - muy rapido en CPU, util para clasificacion.

Especificaciones minimas para Ollama

  • Solo CPU (modelos pequenos, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
  • CPU produccion (solicitudes paralelas) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
  • GPU entrada (7B-13B a FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
  • GPU produccion (modelos 34B+) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM

Configuracion recomendada de DCXV

Los servidores cloud de DCXV funcionan en infraestructura Tier III en la UE:

  • Servidor CPU, 16 vCPU / 32 GB RAM - sirve modelos 7B a 18-28 tokens/s
  • Servidor GPU, 16-24 GB VRAM - sirve modelos 7B-13B a 80-120 tokens/s
  • Servidor GPU, 80 GB VRAM - sirve modelos 70B a 25-40 tokens/s

Contacta sales@dcxv.com para instancias GPU o CPU.

Comandos de configuracion rapida

# Instalar Ollama en Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh

# Descargar modelos
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list
# Configurar Ollama para red privada
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"

sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags
# Usar la API compatible con OpenAI
curl http://10.0.0.5:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Que es el RGPD?"}]
  }'

Rendimiento esperado

CPU (16 vCPU), llama3.1:8b Q4_K_M:

  • Generacion (solicitud unica) - 18-28 tokens/s
  • Throughput de embeddings - 250-400 vectores/s

GPU (16 GB VRAM), llama3.1:8b FP16:

  • Generacion (solicitud unica) - 80-120 tokens/s
  • Tiempo al primer token - 100-250 ms

Conclusion

Ollama en un servidor cloud DCXV de la UE da a tu equipo un endpoint de IA privado y conforme al RGPD. La instalacion tarda menos de cinco minutos.

Ejecuta Claude Code, Codex y Grok CLI en tu propio servidor cloud
cloudaivps

Ejecuta Claude Code, Codex y Grok CLI en tu propio servidor cloud

Convierte un servidor cloud Debian o Ubuntu en un sandbox para agentes de IA como Claude Code, Codex y Grok CLI. Programa desde cualquier lugar.

Restaura un servidor cloud a una copia de seguridad reciente en dos clics
backuprecoverycloudCloud

Restaura un servidor cloud a una copia de seguridad reciente en dos clics

Los servidores cloud de DCXV ahora permiten restaurar una copia automatica reciente desde el panel - elige una copia, confirma y la VM se restaura en minutos.

Gestiona cuentas de clientes desde un solo acceso - el panel de reseller de DCXV
resellercontrol-panelcloudCloud

Gestiona cuentas de clientes desde un solo acceso - el panel de reseller de DCXV

El nuevo panel de reseller de DCXV permite crear subcuentas de clientes, seguir sus saldos y servidores, e iniciar sesion en cualquiera desde un solo panel.

GLM-5.2 - El nuevo LLM lider de pesos abiertos
aillmopen-sourceglmCloud

GLM-5.2 - El nuevo LLM lider de pesos abiertos

GLM-5.2 de Z.ai es el nuevo modelo lider de pesos abiertos en el Artificial Analysis Intelligence Index, con 51 puntos, licencia MIT y contexto de 1M tokens.

Haz una instantanea antes de cambios arriesgados y revierte al instante
snapshotcloudCloud

Haz una instantanea antes de cambios arriesgados y revierte al instante

Crea una instantanea bajo demanda de tu servidor cloud DCXV antes de cualquier cambio arriesgado y revierte en segundos. Anade una instantanea en el panel con un clic.