Хмарний сервер для Ollama в Європі: самохостинг ШІ

Хмарний сервер для Ollama в Європі: самохостинг ШІ

Хмарний сервер для Ollama в Європі: самохостинг ШІ

Ollama - це найшвидший спосіб запустити локальну LLM - одна команда встановлює середовище виконання, завантажує модель та відкриває OpenAI-сумісний API. Для європейських команд запуск Ollama на хмарному сервері ЄС означає, що вся ШІ-інференція залишається під юрисдикцією ЄС, задовольняючи вимоги GDPR.

Чому варто запускати Ollama на хмарному сервері ЄС

Запуск Ollama локально на ноутбуках розробників підходить для тестування, але виробничі функції ШІ потребують сервера: стабільна доступність, GPU-прискорення, спільний доступ для кількох сервісів та стабільні кінцеві точки API.

Хостинг в ЄС важливий, оскільки Ollama служить кінцевою точкою інференції для ваших застосунків. Кожен запит користувача проходить через цей сервер. Відповідно до GDPR, якщо ці запити містять персональні дані, інференція повинна відбуватися на інфраструктурі під юрисдикцією ЄС. Хмарний сервер DCXV ЄС з Ollama надає відповідну приватну кінцеву точку ШІ.

Вибір правильної моделі

  • llama3.1:8b - найкраща універсальна для чату, узагальнення, Q&A. 4-5 ГБ VRAM при Q4.
  • llama3.1:70b - якість, близька до GPT-4. Потребує 40+ ГБ VRAM.
  • mistral:7b - швидка, ефективна, відмінна для структурованого виводу.
  • nomic-embed-text - модель вбудовування для RAG-конвеєрів. 274 МБ.
  • codellama:13b - генерація та перегляд коду.
  • phi3:mini - дуже швидка на CPU, корисна для класифікації.

Мінімальні характеристики для Ollama

  • Лише CPU (малі моделі, 7B Q4) - 8 vCPU, 16 ГБ RAM, 100 ГБ NVMe SSD
  • CPU виробничий (паралельні запити) - 16 vCPU, 32 ГБ RAM, 200 ГБ NVMe SSD
  • GPU початковий (7B-13B при FP16) - 4 vCPU, 16 ГБ RAM, 16-24 ГБ VRAM
  • GPU виробничий (34B+ моделі) - 8 vCPU, 64 ГБ RAM, 40-80 ГБ VRAM

Рекомендована конфігурація DCXV

Хмарні сервери DCXV працюють на інфраструктурі Tier III в ЄС:

  • CPU сервер, 16 vCPU / 32 ГБ RAM - обслуговує моделі 7B зі швидкістю 18-28 токенів/с
  • GPU сервер, 16-24 ГБ VRAM - обслуговує моделі 7B-13B зі швидкістю 80-120 токенів/с
  • GPU сервер, 80 ГБ VRAM - обслуговує моделі 70B зі швидкістю 25-40 токенів/с

Зв'яжіться з sales@dcxv.com для налаштування GPU або CPU екземплярів.

Команди швидкого налаштування

# Встановлення Ollama на Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh
ollama --version

# Завантаження моделей
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list
# Налаштування Ollama для приватної мережі
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"

sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags
# Використання OpenAI-сумісного API
curl http://10.0.0.5:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Що таке GDPR?"}]
  }'

Очікувані показники продуктивності

CPU (16 vCPU), llama3.1:8b Q4_K_M:

  • Генерація (один запит) - 18-28 токенів/с
  • Пропускна здатність вбудовування - 250-400 векторів/с

GPU (16 ГБ VRAM), llama3.1:8b FP16:

  • Генерація (один запит) - 80-120 токенів/с
  • Час до першого токена - 100-250 мс

Висновок

Ollama на хмарному сервері DCXV ЄС надає вашій команді приватну, GDPR-сумісну кінцеву точку ШІ. Встановлення займає менше пяти хвилин, а OpenAI-сумісний API означає, що будь-який застосунок, що використовує OpenAI SDK, працює без змін коду.

DeepSeek V4: модель 1,6T MoE з контекстом 1M токенів
aideepseekllm

DeepSeek V4: модель 1,6T MoE з контекстом 1M токенів

DeepSeek V4 представляє моделі Pro (1,6T) та Flash (284B) MoE з контекстом 1M токенів, гібридною увагою та трьома режимами мислення для самохостингу в ЄС.

Хмарний сервер для Stable Diffusion в Європі: GPU налаштування
cloudaigpu

Хмарний сервер для Stable Diffusion в Європі: GPU налаштування

Запустіть Stable Diffusion на хмарному сервері ЄС з дотриманням GDPR. Охоплює GPU, налаштування AUTOMATIC1111 і ComfyUI, зберігання моделей та орієнтири.

Хмарний сервер для Redis в Європі: малозатримкове налаштування
cloudredisdatabase

Хмарний сервер для Redis в Європі: малозатримкове налаштування

Запустіть Redis на хмарному сервері ЄС з дотриманням GDPR. Охоплює розміщення памяті, режими збереження, кластер та орієнтири затримки для Європи.

Хмарний сервер для PostgreSQL в Європі
cloudpostgresqldatabase

Хмарний сервер для PostgreSQL в Європі

Запустіть PostgreSQL на хмарному сервері в ЄС з дотриманням GDPR. Порівняйте характеристики, витрати та кроки налаштування для розміщення бази даних в Європі.

Хмарний сервер для Ollama в Європі: самохостинг ШІ
cloudaigpu

Хмарний сервер для Ollama в Європі: самохостинг ШІ

Запустіть Ollama на хмарному сервері ЄС з дотриманням GDPR. Охоплює вибір моделі, GPU, налаштування API та орієнтири продуктивності для самохостингу ШІ.