Servidor cloud para Ollama na Europa: guia de IA auto-hospedada EU

Servidor cloud para Ollama na Europa: guia de IA auto-hospedada EU

Servidor cloud para Ollama na Europa: guia de IA auto-hospedada EU

Ollama e a forma mais rapida de colocar um LLM local em funcionamento - um unico comando instala o runtime, baixa um modelo e expoe uma API compativel com OpenAI. Para equipes europeias, executar Ollama em um servidor cloud da UE significa que toda a inferencia de IA permanece sob jurisdicao da UE, satisfazendo os requisitos do RGPD.

Por que executar Ollama em um servidor cloud da UE

O hosting na UE importa porque Ollama serve como endpoint de inferencia para suas aplicacoes. Cada prompt enviado pelos seus usuarios passa por este servidor. Sob o RGPD, se esses prompts contiverem dados pessoais, a inferencia deve ocorrer em infraestrutura sob jurisdicao da UE. Um servidor cloud DCXV da UE com Ollama fornece um endpoint de IA privado e em conformidade.

Escolhendo o modelo certo

  • llama3.1:8b - melhor para chat, resumo, Q&A. 4-5 GB VRAM em Q4.
  • llama3.1:70b - qualidade proxima ao GPT-4. Requer 40+ GB VRAM.
  • mistral:7b - rapido, eficiente, excelente para saida estruturada.
  • nomic-embed-text - modelo de embedding para pipelines RAG. 274 MB.
  • codellama:13b - geracao e revisao de codigo.
  • phi3:mini - muito rapido em CPU, util para classificacao.

Especificacoes minimas para Ollama

  • Somente CPU (modelos pequenos, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
  • CPU producao (solicitacoes paralelas) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
  • GPU entrada (7B-13B em FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
  • GPU producao (modelos 34B+) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM

Configuracao recomendada da DCXV

Os servidores cloud da DCXV funcionam em infraestrutura Tier III na UE:

  • Servidor CPU, 16 vCPU / 32 GB RAM - serve modelos 7B a 18-28 tokens/s
  • Servidor GPU, 16-24 GB VRAM - serve modelos 7B-13B a 80-120 tokens/s
  • Servidor GPU, 80 GB VRAM - serve modelos 70B a 25-40 tokens/s

Contate sales@dcxv.com para instancias GPU ou CPU.

Comandos de configuracao rapida

# Instalar Ollama no Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh

# Baixar modelos
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list
# Configurar Ollama para rede privada
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"

sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags
# Usar a API compativel com OpenAI
curl http://10.0.0.5:11434/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "O que e RGPD?"}]
}'

Desempenho esperado

CPU (16 vCPU), llama3.1:8b Q4_K_M:

  • Geracao (solicitacao unica) - 18-28 tokens/s
  • Throughput de embeddings - 250-400 vetores/s

GPU (16 GB VRAM), llama3.1:8b FP16:

  • Geracao (solicitacao unica) - 80-120 tokens/s
  • Tempo ao primeiro token - 100-250 ms

Conclusao

Ollama em um servidor cloud DCXV da UE fornece a sua equipe um endpoint de IA privado e em conformidade com o RGPD. A instalacao leva menos de cinco minutos.

Servidor cloud para inferencia de IA na Europa: guia GPU e CPU
CloudAIGPU

Servidor cloud para inferencia de IA na Europa: guia GPU e CPU

Execute workloads de inferencia de IA em um servidor cloud da UE em conformidade com o RGPD. GPU vs CPU, especificacoes, configuracao de model serving e benchmarks.

Servidor cloud para Elasticsearch na Europa: hospedagem de busca EU
CloudElasticsearchDatabase

Servidor cloud para Elasticsearch na Europa: hospedagem de busca EU

Execute Elasticsearch em um servidor cloud da UE em conformidade com o RGPD. Dimensionamento de heap, estrategia de shards, ajuste de indices e benchmarks de pesquisa.

Servidor cloud para hosting LLM na Europa: guia de IA RGPD
CloudAIGPU

Servidor cloud para hosting LLM na Europa: guia de IA RGPD

Hospede grandes modelos de linguagem em um servidor cloud da UE em conformidade com o RGPD. GPU, quantizacao, frameworks de API e benchmarks para a Europa.

Servidor cloud para MongoDB na Europa
CloudMongoDBDatabase

Servidor cloud para MongoDB na Europa

Execute MongoDB em um servidor cloud da UE com total conformidade com o RGPD. Cobre tuning do WiredTiger, configuracao de replica set, especificacoes recomendadas e benchmarks.

Servidor cloud para MySQL na Europa
CloudMySQLDatabase

Servidor cloud para MySQL na Europa

Hospede MySQL em um servidor cloud da UE em conformidade com o RGPD. Cobre tuning do InnoDB, replicacao, especificacoes recomendadas e benchmarks de desempenho.