Servidor cloud para Ollama na Europa: guia de IA auto-hospedada EU

Servidor cloud para Ollama na Europa: guia de IA auto-hospedada EU

Servidor cloud para Ollama na Europa: guia de IA auto-hospedada EU

Ollama e a forma mais rapida de colocar um LLM local em funcionamento - um unico comando instala o runtime, baixa um modelo e expoe uma API compativel com OpenAI. Para equipes europeias, executar Ollama em um servidor cloud da UE significa que toda a inferencia de IA permanece sob jurisdicao da UE, satisfazendo os requisitos do RGPD.

Por que executar Ollama em um servidor cloud da UE

O hosting na UE importa porque Ollama serve como endpoint de inferencia para suas aplicacoes. Cada prompt enviado pelos seus usuarios passa por este servidor. Sob o RGPD, se esses prompts contiverem dados pessoais, a inferencia deve ocorrer em infraestrutura sob jurisdicao da UE. Um servidor cloud DCXV da UE com Ollama fornece um endpoint de IA privado e em conformidade.

Escolhendo o modelo certo

  • llama3.1:8b - melhor para chat, resumo, Q&A. 4-5 GB VRAM em Q4.
  • llama3.1:70b - qualidade proxima ao GPT-4. Requer 40+ GB VRAM.
  • mistral:7b - rapido, eficiente, excelente para saida estruturada.
  • nomic-embed-text - modelo de embedding para pipelines RAG. 274 MB.
  • codellama:13b - geracao e revisao de codigo.
  • phi3:mini - muito rapido em CPU, util para classificacao.

Especificacoes minimas para Ollama

  • Somente CPU (modelos pequenos, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
  • CPU producao (solicitacoes paralelas) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
  • GPU entrada (7B-13B em FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
  • GPU producao (modelos 34B+) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM

Configuracao recomendada da DCXV

Os servidores cloud da DCXV funcionam em infraestrutura Tier III na UE:

  • Servidor CPU, 16 vCPU / 32 GB RAM - serve modelos 7B a 18-28 tokens/s
  • Servidor GPU, 16-24 GB VRAM - serve modelos 7B-13B a 80-120 tokens/s
  • Servidor GPU, 80 GB VRAM - serve modelos 70B a 25-40 tokens/s

Contate sales@dcxv.com para instancias GPU ou CPU.

Comandos de configuracao rapida

# Instalar Ollama no Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh

# Baixar modelos
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list
# Configurar Ollama para rede privada
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"

sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags
# Usar a API compativel com OpenAI
curl http://10.0.0.5:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "O que e RGPD?"}]
  }'

Desempenho esperado

CPU (16 vCPU), llama3.1:8b Q4_K_M:

  • Geracao (solicitacao unica) - 18-28 tokens/s
  • Throughput de embeddings - 250-400 vetores/s

GPU (16 GB VRAM), llama3.1:8b FP16:

  • Geracao (solicitacao unica) - 80-120 tokens/s
  • Tempo ao primeiro token - 100-250 ms

Conclusao

Ollama em um servidor cloud DCXV da UE fornece a sua equipe um endpoint de IA privado e em conformidade com o RGPD. A instalacao leva menos de cinco minutos.

Execute Claude Code, Codex e Grok CLI no seu próprio servidor cloud
cloudaivps

Execute Claude Code, Codex e Grok CLI no seu próprio servidor cloud

Transforme um servidor cloud Debian ou Ubuntu num sandbox para agentes de IA como Claude Code, Codex e Grok CLI. Programe a partir de qualquer lugar.

Restaure um servidor cloud para um backup recente em dois cliques
backuprecoverycloudCloud

Restaure um servidor cloud para um backup recente em dois cliques

Os servidores cloud da DCXV agora permitem restaurar um backup automatico recente pelo painel - escolha um backup, confirme e a VM volta em minutos.

Gerencie contas de clientes a partir de um login - o painel de revenda da DCXV
resellercontrol-panelcloudCloud

Gerencie contas de clientes a partir de um login - o painel de revenda da DCXV

O novo painel de revenda da DCXV permite criar subcontas de clientes, acompanhar saldos e servidores, e entrar em qualquer uma a partir de um unico painel.

GLM-5.2 - O novo LLM lider de pesos abertos
aillmopen-sourceglmCloud

GLM-5.2 - O novo LLM lider de pesos abertos

GLM-5.2 da Z.ai e o novo modelo lider de pesos abertos no Artificial Analysis Intelligence Index, com 51 pontos, licenca MIT e contexto de 1M tokens.

Tire um snapshot antes de mudancas arriscadas e reverta na hora
snapshotcloudCloud

Tire um snapshot antes de mudancas arriscadas e reverta na hora

Crie um snapshot sob demanda do seu servidor cloud DCXV antes de qualquer mudanca arriscada e reverta em segundos. Adicione um snapshot no painel com um clique.