Хмарний сервер для хостингу LLM в Європі: посібник з ШІ
Самостійний хостинг великої мовної моделі дає вам повний контроль над тим, які дані потрапляють до моделі, де вони обробляються та хто має до них доступ. Для європейського бізнесу це не просто аргумент щодо витрат - це вимога відповідності. Будь-який запит, що містить персональні дані жителів ЄС, повинен оброблятися під юрисдикцією ЄС відповідно до GDPR.
Чому юрисдикція ЄС важлива для хостингу LLM
Коли користувачі взаємодіють з LLM - задають питання, отримують резюме документів, генерують контент - ці запити часто містять імена, електронні адреси, запити про здоровя та інші персональні дані. Надсилання цих запитів до API, розміщеного в США, означає, що персональні дані залишають юрисдикцію ЄС при кожному запиті.
Самостійний хостинг на хмарному сервері DCXV ЄС означає, що вся інференція залишається в межах ЄС. Для охорони здоровя, юридичних та фінансових застосунків в Європі власна інфраструктура LLM в ЄС - це практичний шлях до відповідності GDPR.
Вибір розміру моделі та квантизації
- Моделі 7B (Q4, ~4 ГБ VRAM) - підходять для узагальнення, класифікації, Q&A по документах
- Моделі 13B (Q4, ~8 ГБ VRAM) - краще міркування, краще дотримання інструкцій
- Моделі 34B (Q4, ~20 ГБ VRAM) - якість, близька до GPT-3.5
- Моделі 70B (Q4, ~40 ГБ VRAM) - клас GPT-4 для більшості завдань
Мінімальні характеристики для хостингу LLM
- CPU обслуговування (7B Q4) - 16 vCPU, 32 ГБ RAM, 200 ГБ NVMe SSD
- GPU початковий (7B-13B, RTX 4090) - 8 vCPU, 32 ГБ RAM, 24 ГБ VRAM, 500 ГБ NVMe
- GPU середній (34B Q4, A100 40 ГБ) - 16 vCPU, 64 ГБ RAM, 40 ГБ VRAM, 1 ТБ NVMe
- GPU високий (70B Q4, A100 80 ГБ) - 16 vCPU, 128 ГБ RAM, 80 ГБ VRAM, 2 ТБ NVMe
Рекомендована конфігурація DCXV
Хмарні сервери DCXV надають GPU-оснащені сервери в ЄС для хостингу LLM:
- GPU сервер, 24 ГБ VRAM - моделі 7B-13B для SaaS-копілотів та внутрішніх асистентів
- GPU сервер, 80 ГБ VRAM - моделі 70B для виробничих API
- CPU сервер, 32-64 ГБ RAM - моделі 7B через llama.cpp для фонової обробки
Зв’яжіться з sales@dcxv.com для отримання інформації про доступність GPU.
Команди швидкого налаштування
# Варіант 1: Ollama (найпростіший)
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl enable --now ollama
ollama pull llama3.1:8b
# Відкрити у приватній мережі
# Додайте до /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
sudo systemctl daemon-reload && sudo systemctl restart ollama # Варіант 2: vLLM для GPU з OpenAI-сумісним API
pip install vllm
python -m vllm.entrypoints.openai.api_server
--model meta-llama/Llama-3.1-8B-Instruct
--host 10.0.0.5 --port 8000
--gpu-memory-utilization 0.90 Очікувані показники продуктивності
vLLM на RTX 4090, Llama 3.1 8B FP16:
- Генерація (один запит) - 80-120 токенів/с
- Пакетна пропускна здатність (8 запитів) - 400-700 токенів/с
- Час до першого токена - 150-300 мс
llama.cpp CPU (16 vCPU), 8B Q4_K_M:
- Швидкість генерації - 18-30 токенів/с
Висновок
Самостійний хостинг LLM на інфраструктурі ЄС - це найнадійніший шлях до GDPR-сумісного ШІ у виробництві. Використовуйте vLLM для GPU-обслуговування та llama.cpp для гнучкості CPU.




