#llm

2 posts found

DeepSeek V4: modelo MoE 1,6T com contexto 1M em servidor EU
aideepseekllm

DeepSeek V4: modelo MoE 1,6T com contexto 1M em servidor EU

DeepSeek V4 apresenta modelos MoE Pro (1,6T) e Flash (284B) com contexto de 1M tokens, atencao hibrida e tres modos de raciocinio para auto-hospedagem na UE.

TurboQuant: a compressao de IA do Google que agora roda na CPU
aicompressionquantizationllmgooglecloud

TurboQuant: a compressao de IA do Google que agora roda na CPU

O TurboQuant do Google alcanca compressao 6x do cache KV sem perda de precisao, tornando a inferencia de IA em CPUs comuns uma realidade em producao.