#llm
2 posts found

DeepSeek V4: modelo MoE 1,6T com contexto 1M em servidor EU
DeepSeek V4 apresenta modelos MoE Pro (1,6T) e Flash (284B) com contexto de 1M tokens, atencao hibrida e tres modos de raciocinio para auto-hospedagem na UE.
April 24, 2026

TurboQuant: a compressao de IA do Google que agora roda na CPU
O TurboQuant do Google alcanca compressao 6x do cache KV sem perda de precisao, tornando a inferencia de IA em CPUs comuns uma realidade em producao.
April 1, 2026