#llm

2 posts found

DeepSeek V4: 1,6T MoE-Modell mit 1M-Kontext auf EU-Server

DeepSeek V4 stellt Pro (1,6T) und Flash (284B) MoE-Modelle mit 1M-Token-Kontext, Hybrid-Attention und drei Reasoning-Modi fur EU-Self-Hosting vor.

April 24, 2026

Googles TurboQuant erreicht 6-fache KV-Cache-Komprimierung ohne Genauigkeitsverlust und macht KI-Inferenz auf normalen CPUs zur Produktionsrealitat.

April 1, 2026