#llm
2 posts found

DeepSeek V4: modelo MoE 1,6T con contexto 1M en servidor EU
DeepSeek V4 presenta modelos MoE Pro (1,6T) y Flash (284B) con contexto de 1M tokens, atencion hibrida y tres modos de razonamiento para autoalojamiento en EU.
April 24, 2026

TurboQuant: la compresion de IA de Google que ahora funciona en CPU
TurboQuant de Google logra una compresion 6x del cache KV sin perdida de precision, haciendo que la inferencia de IA en CPUs comunes sea una realidad en produccion.
April 1, 2026