#llm

2 posts found

DeepSeek V4: modelo MoE 1,6T com contexto 1M em servidor EU

DeepSeek V4 apresenta modelos MoE Pro (1,6T) e Flash (284B) com contexto de 1M tokens, atencao hibrida e tres modos de raciocinio para auto-hospedagem na UE.

April 24, 2026

ai compression quantization llm google cloud

TurboQuant: a compressao de IA do Google que agora roda na CPU

O TurboQuant do Google alcanca compressao 6x do cache KV sem perda de precisao, tornando a inferencia de IA em CPUs comuns uma realidade em producao.

April 1, 2026

#llm

DeepSeek V4: modelo MoE 1,6T com contexto 1M em servidor EU

TurboQuant: a compressao de IA do Google que agora roda na CPU

Related Tags