Serwer cloud dla Ollama w Europie: przewodnik samohostingu AI EU
Ollama to najszybszy sposob uruchomienia lokalnego LLM - jedna komenda instaluje srodowisko uruchomieniowe, pobiera model i udostepnia API zgodne z OpenAI. Dla europejskich zespolow, uruchomienie Ollama na serwerze cloud UE oznacza, ze cala inferencja AI pozostaje pod jurysdykcja UE, spelniajac wymagania RODO.
Dlaczego warto uruchamiac Ollama na serwerze cloud UE
Hosting w UE jest wazny, poniewaz Ollama sluzy jako endpoint inferencji dla Twoich aplikacji. Kazdy prompt wyslany przez uzytkownikow przechodzi przez ten serwer. Zgodnie z RODO, jesli te prompty zawieraja dane osobowe, inferencja musi odbywac sie na infrastrukturze pod jurysdykcja UE. Serwer cloud DCXV EU z Ollama zapewnia zgodny, prywatny endpoint AI.
Wybor odpowiedniego modelu
- llama3.1:8b - najlepszy ogolny dla czatu, podsumowania, Q&A. 4-5 GB VRAM przy Q4.
- llama3.1:70b - jakosc bliska GPT-4. Wymaga 40+ GB VRAM.
- mistral:7b - szybki, wydajny, doskonaly do ustrukturyzowanych danych wyjsciowych.
- nomic-embed-text - model embeddingowy dla potoków RAG. 274 MB.
- codellama:13b - generowanie i przeglad kodu.
- phi3:mini - bardzo szybki na CPU, przydatny do klasyfikacji.
Minimalne specyfikacje dla Ollama
- Tylko CPU (male modele, 7B Q4) - 8 vCPU, 16 GB RAM, 100 GB NVMe SSD
- CPU produkcyjny (rownolegle zadania) - 16 vCPU, 32 GB RAM, 200 GB NVMe SSD
- GPU wejsciowy (7B-13B przy FP16) - 4 vCPU, 16 GB RAM, 16-24 GB VRAM
- GPU produkcyjny (modele 34B+) - 8 vCPU, 64 GB RAM, 40-80 GB VRAM
Rekomendowana konfiguracja DCXV
Serwery cloud DCXV dzialaja na infrastrukturze Tier III w UE:
- Serwer CPU, 16 vCPU / 32 GB RAM - obsluguje modele 7B z szybkoscia 18-28 tokenow/s
- Serwer GPU, 16-24 GB VRAM - obsluguje modele 7B-13B z szybkoscia 80-120 tokenow/s
- Serwer GPU, 80 GB VRAM - obsluguje modele 70B z szybkoscia 25-40 tokenow/s
Skontaktuj sie z sales@dcxv.com w sprawie instancji GPU lub CPU.
Komendy szybkiej konfiguracji
# Instalacja Ollama na Ubuntu 22.04
curl -fsSL https://ollama.com/install.sh | sh
# Pobieranie modeli
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull nomic-embed-text
ollama list # Konfiguracja Ollama dla sieci prywatnej
# /etc/systemd/system/ollama.service:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Environment="OLLAMA_NUM_PARALLEL=4"
sudo systemctl daemon-reload && sudo systemctl restart ollama
curl http://10.0.0.5:11434/api/tags # Korzystanie z API zgodnego z OpenAI
curl http://10.0.0.5:11434/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Co to jest RODO?"}]
}' Oczekiwana wydajnosc
CPU (16 vCPU), llama3.1:8b Q4_K_M:
- Generacja (jedno zadanie) - 18-28 tokenow/s
- Przepustowosc embeddingów - 250-400 wektorow/s
GPU (16 GB VRAM), llama3.1:8b FP16:
- Generacja (jedno zadanie) - 80-120 tokenow/s
- Czas do pierwszego tokena - 100-250 ms
Podsumowanie
Ollama na serwerze cloud DCXV EU daje Twojemu zespolowi prywatny, zgodny z RODO endpoint AI. Instalacja zajmuje mniej niz piec minut.





