#llm

2 posts found

DeepSeek V4: modele MoE 1,6T avec contexte 1M sur serveur EU

DeepSeek V4 introduit les modeles MoE Pro (1,6T) et Flash (284B) avec un contexte de 1M tokens, une attention hybride et trois modes de raisonnement pour l'UE.

April 24, 2026

ai compression quantization llm google cloud

TurboQuant: la compression IA de Google qui fonctionne desormais sur CPU

TurboQuant de Google atteint une compression 6x du cache KV sans perte de precision, rendant l'inference IA sur CPU standard viable en production.

April 1, 2026

#llm

DeepSeek V4: modele MoE 1,6T avec contexte 1M sur serveur EU

TurboQuant: la compression IA de Google qui fonctionne desormais sur CPU

Related Tags