#llm

2 posts found

DeepSeek V4: modello MoE 1,6T con contesto 1M su server EU

DeepSeek V4 introduce i modelli MoE Pro (1,6T) e Flash (284B) con contesto di 1M token, attenzione ibrida e tre modalita di ragionamento per l'hosting autonomo in UE.

April 24, 2026

ai compression quantization llm google cloud

TurboQuant: la compressione AI di Google che ora gira su CPU

TurboQuant di Google raggiunge una compressione 6x della cache KV senza perdita di precisione, rendendo l'inferenza AI su CPU standard una realta in produzione.

April 1, 2026

#llm

DeepSeek V4: modello MoE 1,6T con contesto 1M su server EU

TurboQuant: la compressione AI di Google che ora gira su CPU

Related Tags