#llm

2 posts found

DeepSeek V4: modelo MoE 1,6T con contexto 1M en servidor EU
aideepseekllm

DeepSeek V4: modelo MoE 1,6T con contexto 1M en servidor EU

DeepSeek V4 presenta modelos MoE Pro (1,6T) y Flash (284B) con contexto de 1M tokens, atencion hibrida y tres modos de razonamiento para autoalojamiento en EU.

TurboQuant: la compresion de IA de Google que ahora funciona en CPU
aicompressionquantizationllmgooglecloud

TurboQuant: la compresion de IA de Google que ahora funciona en CPU

TurboQuant de Google logra una compresion 6x del cache KV sin perdida de precision, haciendo que la inferencia de IA en CPUs comunes sea una realidad en produccion.