Хмарний сервер для хостингу LLM в Європі: посібник з ШІ

Хмарний сервер для хостингу LLM в Європі: посібник з ШІ

Хмарний сервер для хостингу LLM в Європі: посібник з ШІ

Самостійний хостинг великої мовної моделі дає вам повний контроль над тим, які дані потрапляють до моделі, де вони обробляються та хто має до них доступ. Для європейського бізнесу це не просто аргумент щодо витрат - це вимога відповідності. Будь-який запит, що містить персональні дані жителів ЄС, повинен оброблятися під юрисдикцією ЄС відповідно до GDPR.

Чому юрисдикція ЄС важлива для хостингу LLM

Коли користувачі взаємодіють з LLM - задають питання, отримують резюме документів, генерують контент - ці запити часто містять імена, електронні адреси, запити про здоровя та інші персональні дані. Надсилання цих запитів до API, розміщеного в США, означає, що персональні дані залишають юрисдикцію ЄС при кожному запиті.

Самостійний хостинг на хмарному сервері DCXV ЄС означає, що вся інференція залишається в межах ЄС. Для охорони здоровя, юридичних та фінансових застосунків в Європі власна інфраструктура LLM в ЄС - це практичний шлях до відповідності GDPR.

Вибір розміру моделі та квантизації

  • Моделі 7B (Q4, ~4 ГБ VRAM) - підходять для узагальнення, класифікації, Q&A по документах
  • Моделі 13B (Q4, ~8 ГБ VRAM) - краще міркування, краще дотримання інструкцій
  • Моделі 34B (Q4, ~20 ГБ VRAM) - якість, близька до GPT-3.5
  • Моделі 70B (Q4, ~40 ГБ VRAM) - клас GPT-4 для більшості завдань

Мінімальні характеристики для хостингу LLM

  • CPU обслуговування (7B Q4) - 16 vCPU, 32 ГБ RAM, 200 ГБ NVMe SSD
  • GPU початковий (7B-13B, RTX 4090) - 8 vCPU, 32 ГБ RAM, 24 ГБ VRAM, 500 ГБ NVMe
  • GPU середній (34B Q4, A100 40 ГБ) - 16 vCPU, 64 ГБ RAM, 40 ГБ VRAM, 1 ТБ NVMe
  • GPU високий (70B Q4, A100 80 ГБ) - 16 vCPU, 128 ГБ RAM, 80 ГБ VRAM, 2 ТБ NVMe

Рекомендована конфігурація DCXV

Хмарні сервери DCXV надають GPU-оснащені сервери в ЄС для хостингу LLM:

  • GPU сервер, 24 ГБ VRAM - моделі 7B-13B для SaaS-копілотів та внутрішніх асистентів
  • GPU сервер, 80 ГБ VRAM - моделі 70B для виробничих API
  • CPU сервер, 32-64 ГБ RAM - моделі 7B через llama.cpp для фонової обробки

Зв'яжіться з sales@dcxv.com для отримання інформації про доступність GPU.

Команди швидкого налаштування

# Варіант 1: Ollama (найпростіший)
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl enable --now ollama
ollama pull llama3.1:8b

# Відкрити у приватній мережі
# Додайте до /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
sudo systemctl daemon-reload && sudo systemctl restart ollama
# Варіант 2: vLLM для GPU з OpenAI-сумісним API
pip install vllm

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B-Instruct \
  --host 10.0.0.5 --port 8000 \
  --gpu-memory-utilization 0.90

Очікувані показники продуктивності

vLLM на RTX 4090, Llama 3.1 8B FP16:

  • Генерація (один запит) - 80-120 токенів/с
  • Пакетна пропускна здатність (8 запитів) - 400-700 токенів/с
  • Час до першого токена - 150-300 мс

llama.cpp CPU (16 vCPU), 8B Q4_K_M:

  • Швидкість генерації - 18-30 токенів/с

Висновок

Самостійний хостинг LLM на інфраструктурі ЄС - це найнадійніший шлях до GDPR-сумісного ШІ у виробництві. Використовуйте vLLM для GPU-обслуговування та llama.cpp для гнучкості CPU.

DeepSeek V4: модель 1,6T MoE з контекстом 1M токенів
aideepseekllm

DeepSeek V4: модель 1,6T MoE з контекстом 1M токенів

DeepSeek V4 представляє моделі Pro (1,6T) та Flash (284B) MoE з контекстом 1M токенів, гібридною увагою та трьома режимами мислення для самохостингу в ЄС.

Хмарний сервер для Stable Diffusion в Європі: GPU налаштування
cloudaigpu

Хмарний сервер для Stable Diffusion в Європі: GPU налаштування

Запустіть Stable Diffusion на хмарному сервері ЄС з дотриманням GDPR. Охоплює GPU, налаштування AUTOMATIC1111 і ComfyUI, зберігання моделей та орієнтири.

Хмарний сервер для Redis в Європі: малозатримкове налаштування
cloudredisdatabase

Хмарний сервер для Redis в Європі: малозатримкове налаштування

Запустіть Redis на хмарному сервері ЄС з дотриманням GDPR. Охоплює розміщення памяті, режими збереження, кластер та орієнтири затримки для Європи.

Хмарний сервер для PostgreSQL в Європі
cloudpostgresqldatabase

Хмарний сервер для PostgreSQL в Європі

Запустіть PostgreSQL на хмарному сервері в ЄС з дотриманням GDPR. Порівняйте характеристики, витрати та кроки налаштування для розміщення бази даних в Європі.

Хмарний сервер для Ollama в Європі: самохостинг ШІ
cloudaigpu

Хмарний сервер для Ollama в Європі: самохостинг ШІ

Запустіть Ollama на хмарному сервері ЄС з дотриманням GDPR. Охоплює вибір моделі, GPU, налаштування API та орієнтири продуктивності для самохостингу ШІ.