#llm

2 posts found

DeepSeek V4: modele MoE 1,6T avec contexte 1M sur serveur EU
aideepseekllm

DeepSeek V4: modele MoE 1,6T avec contexte 1M sur serveur EU

DeepSeek V4 introduit les modeles MoE Pro (1,6T) et Flash (284B) avec un contexte de 1M tokens, une attention hybride et trois modes de raisonnement pour l'UE.

TurboQuant: la compression IA de Google qui fonctionne desormais sur CPU
aicompressionquantizationllmgooglecloud

TurboQuant: la compression IA de Google qui fonctionne desormais sur CPU

TurboQuant de Google atteint une compression 6x du cache KV sans perte de precision, rendant l'inference IA sur CPU standard viable en production.