Хмарний сервер для ШІ-інференції в Європі: GPU та CPU
ШІ-інференція - запуск навченої моделі для генерації передбачень або доповнень - є одним із найбільш швидкозростаючих серверних навантажень у 2026 році. Для бізнесу, що працює в Європі, вибір інфраструктури виходить за рамки технічних характеристик: GDPR вимагає, щоб запити на інференцію, що містять персональні дані, оброблялися на інфраструктурі під юрисдикцією ЄС.
Чому резиденція даних в ЄС важлива для ШІ-інференції
Кожен запит до моделі ШІ потенційно є персональними даними відповідно до GDPR - він може містити імена користувачів, вміст електронних листів, медичні запити або фінансові деталі. Запуск інференції на хмарному сервері DCXV в ЄС зберігає всі запити та відповіді в межах ЄС.
Крім дотримання вимог, хостинг інференції в ЄС усуває трансатлантичну затримку. Модель, що обслуговується з Праги або Франкфурта, відповідає на 80-120 мс швидше за запит, ніж та сама модель з кінцевої точки в США.
GPU проти CPU інференції
- CPU інференція добре підходить для малих моделей (до 7B параметрів при INT8/INT4), моделей вбудовування та випадків з малою пропускною здатністю (до 20 запитів/с).
- GPU інференція необхідна для великих моделей (13B+ параметрів), інтерактивних застосунків у реальному часі або пакетних навантажень.
Мінімальні характеристики для ШІ-інференції
Лише CPU:
- Малий (моделі вбудовування) - 8 vCPU, 16 ГБ RAM, 100 ГБ NVMe SSD
- Середній (модель 7B) - 16 vCPU, 32 ГБ RAM, 200 ГБ NVMe SSD
- Великий (модель 13B при INT4) - 32 vCPU, 64 ГБ RAM, 500 ГБ NVMe SSD
GPU інференція:
- Початковий (7B-13B моделі, 24 ГБ VRAM) - 8 vCPU, 32 ГБ RAM, 500 ГБ NVMe
- Виробничий (34B-70B моделі, 80 ГБ VRAM) - 16 vCPU, 128 ГБ RAM, 1 ТБ NVMe
Рекомендована конфігурація DCXV
Хмарні сервери DCXV підтримують конфігурації, оптимізовані для CPU та GPU:
- 16 vCPU, 64 ГБ RAM, 500 ГБ NVMe - CPU інференція для моделей 7B-13B
- GPU сервер з 24 ГБ VRAM - реальна інференція для застосунків чат-бота
- GPU сервер з 80 ГБ VRAM - виробнича інференція для моделей 34B-70B
Зв’яжіться з sales@dcxv.com для обговорення доступності GPU.
Команди швидкого налаштування
# Встановлення Ollama для обслуговування CPU/GPU моделей
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl start ollama && sudo systemctl enable ollama
# Завантаження та запуск моделі
ollama pull llama3.1:8b
ollama run llama3.1:8b "Поясни резиденцію даних ЄС" # Відкриття Ollama як API у приватній мережі
# Додайте до /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/generate
-d '{"model": "llama3.1:8b", "prompt": "Що таке GDPR?", "stream": false}' Очікувані показники продуктивності
CPU інференція (16 vCPU, llama.cpp, INT4):
- Llama 3.1 8B при Q4_K_M - 18-28 токенів/с
- Затримка до першого токена - 800 мс-2 с
GPU інференція (RTX 4090 24 ГБ, vLLM):
- Llama 3.1 8B - 80-120 токенів/с на запит
- Затримка до першого токена - 150-400 мс
Висновок
ШІ-інференція в Європі є вимогою GDPR для будь-якого застосунку, що обробляє персональні дані через LLM. CPU інференція обробляє внутрішні інструменти та API з малим трафіком. GPU інференція - правильний вибір для інтерактивних застосунків.




