#llm

2 posts found

DeepSeek V4: modelo MoE 1,6T con contexto 1M en servidor EU

DeepSeek V4 presenta modelos MoE Pro (1,6T) y Flash (284B) con contexto de 1M tokens, atencion hibrida y tres modos de razonamiento para autoalojamiento en EU.

April 24, 2026

ai compression quantization llm google cloud

TurboQuant: la compresion de IA de Google que ahora funciona en CPU

TurboQuant de Google logra una compresion 6x del cache KV sin perdida de precision, haciendo que la inferencia de IA en CPUs comunes sea una realidad en produccion.

April 1, 2026

#llm

DeepSeek V4: modelo MoE 1,6T con contexto 1M en servidor EU

TurboQuant: la compresion de IA de Google que ahora funciona en CPU

Related Tags