Хмарний сервер для хостингу LLM в Європі: посібник з ШІ

Хмарний сервер для хостингу LLM в Європі: посібник з ШІ

Хмарний сервер для хостингу LLM в Європі: посібник з ШІ

Самостійний хостинг великої мовної моделі дає вам повний контроль над тим, які дані потрапляють до моделі, де вони обробляються та хто має до них доступ. Для європейського бізнесу це не просто аргумент щодо витрат - це вимога відповідності. Будь-який запит, що містить персональні дані жителів ЄС, повинен оброблятися під юрисдикцією ЄС відповідно до GDPR.

Чому юрисдикція ЄС важлива для хостингу LLM

Коли користувачі взаємодіють з LLM - задають питання, отримують резюме документів, генерують контент - ці запити часто містять імена, електронні адреси, запити про здоровя та інші персональні дані. Надсилання цих запитів до API, розміщеного в США, означає, що персональні дані залишають юрисдикцію ЄС при кожному запиті.

Самостійний хостинг на хмарному сервері DCXV ЄС означає, що вся інференція залишається в межах ЄС. Для охорони здоровя, юридичних та фінансових застосунків в Європі власна інфраструктура LLM в ЄС - це практичний шлях до відповідності GDPR.

Вибір розміру моделі та квантизації

  • Моделі 7B (Q4, ~4 ГБ VRAM) - підходять для узагальнення, класифікації, Q&A по документах
  • Моделі 13B (Q4, ~8 ГБ VRAM) - краще міркування, краще дотримання інструкцій
  • Моделі 34B (Q4, ~20 ГБ VRAM) - якість, близька до GPT-3.5
  • Моделі 70B (Q4, ~40 ГБ VRAM) - клас GPT-4 для більшості завдань

Мінімальні характеристики для хостингу LLM

  • CPU обслуговування (7B Q4) - 16 vCPU, 32 ГБ RAM, 200 ГБ NVMe SSD
  • GPU початковий (7B-13B, RTX 4090) - 8 vCPU, 32 ГБ RAM, 24 ГБ VRAM, 500 ГБ NVMe
  • GPU середній (34B Q4, A100 40 ГБ) - 16 vCPU, 64 ГБ RAM, 40 ГБ VRAM, 1 ТБ NVMe
  • GPU високий (70B Q4, A100 80 ГБ) - 16 vCPU, 128 ГБ RAM, 80 ГБ VRAM, 2 ТБ NVMe

Рекомендована конфігурація DCXV

Хмарні сервери DCXV надають GPU-оснащені сервери в ЄС для хостингу LLM:

  • GPU сервер, 24 ГБ VRAM - моделі 7B-13B для SaaS-копілотів та внутрішніх асистентів
  • GPU сервер, 80 ГБ VRAM - моделі 70B для виробничих API
  • CPU сервер, 32-64 ГБ RAM - моделі 7B через llama.cpp для фонової обробки

Зв’яжіться з sales@dcxv.com для отримання інформації про доступність GPU.

Команди швидкого налаштування

# Варіант 1: Ollama (найпростіший)
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl enable --now ollama
ollama pull llama3.1:8b

# Відкрити у приватній мережі
# Додайте до /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
sudo systemctl daemon-reload && sudo systemctl restart ollama
# Варіант 2: vLLM для GPU з OpenAI-сумісним API
pip install vllm

python -m vllm.entrypoints.openai.api_server
--model meta-llama/Llama-3.1-8B-Instruct
--host 10.0.0.5 --port 8000
--gpu-memory-utilization 0.90

Очікувані показники продуктивності

vLLM на RTX 4090, Llama 3.1 8B FP16:

  • Генерація (один запит) - 80-120 токенів/с
  • Пакетна пропускна здатність (8 запитів) - 400-700 токенів/с
  • Час до першого токена - 150-300 мс

llama.cpp CPU (16 vCPU), 8B Q4_K_M:

  • Швидкість генерації - 18-30 токенів/с

Висновок

Самостійний хостинг LLM на інфраструктурі ЄС - це найнадійніший шлях до GDPR-сумісного ШІ у виробництві. Використовуйте vLLM для GPU-обслуговування та llama.cpp для гнучкості CPU.

Хмарний сервер для ШІ-інференції в Європі: GPU та CPU
CloudAIGPU

Хмарний сервер для ШІ-інференції в Європі: GPU та CPU

Запустіть навантаження ШІ-інференції на хмарному сервері ЄС. Охоплює GPU проти CPU, характеристики, налаштування обслуговування моделей та орієнтири пропускної здатності.

Хмарний сервер для Elasticsearch в Європі: пошук в ЄС
CloudElasticsearchDatabase

Хмарний сервер для Elasticsearch в Європі: пошук в ЄС

Запустіть Elasticsearch на хмарному сервері ЄС з дотриманням GDPR. Охоплює налаштування купи, стратегію шардів, індексацію та орієнтири продуктивності пошуку.

Хмарний сервер для хостингу LLM в Європі: посібник з ШІ
CloudAIGPU

Хмарний сервер для хостингу LLM в Європі: посібник з ШІ

Розмістіть великі мовні моделі на хмарному сервері ЄС з дотриманням GDPR. Охоплює GPU, квантизацію, фреймворки API та орієнтири пропускної здатності.

Хмарний сервер для MongoDB в Європі
CloudMongoDBDatabase

Хмарний сервер для MongoDB в Європі

Запустіть MongoDB на хмарному сервері ЄС з повним дотриманням GDPR. Охоплює налаштування WiredTiger, набори реплік, рекомендовані характеристики та орієнтири продуктивності.

Хмарний сервер для MySQL в Європі
CloudMySQLDatabase

Хмарний сервер для MySQL в Європі

Розмістіть MySQL на хмарному сервері ЄС, що відповідає GDPR. Охоплює налаштування InnoDB, реплікацію, рекомендовані характеристики та орієнтири продуктивності.