#llm

2 posts found

DeepSeek V4: 1,6T MoE-Modell mit 1M-Kontext auf EU-Server
aideepseekllm

DeepSeek V4: 1,6T MoE-Modell mit 1M-Kontext auf EU-Server

DeepSeek V4 stellt Pro (1,6T) und Flash (284B) MoE-Modelle mit 1M-Token-Kontext, Hybrid-Attention und drei Reasoning-Modi fur EU-Self-Hosting vor.

TurboQuant: Googles KI-Komprimierung lauft jetzt auf der CPU
aicompressionquantizationllmgooglecloud

TurboQuant: Googles KI-Komprimierung lauft jetzt auf der CPU

Googles TurboQuant erreicht 6-fache KV-Cache-Komprimierung ohne Genauigkeitsverlust und macht KI-Inferenz auf normalen CPUs zur Produktionsrealitat.