#llm

2 posts found

DeepSeek V4: modello MoE 1,6T con contesto 1M su server EU
aideepseekllm

DeepSeek V4: modello MoE 1,6T con contesto 1M su server EU

DeepSeek V4 introduce i modelli MoE Pro (1,6T) e Flash (284B) con contesto di 1M token, attenzione ibrida e tre modalita di ragionamento per l'hosting autonomo in UE.

TurboQuant: la compressione AI di Google che ora gira su CPU
aicompressionquantizationllmgooglecloud

TurboQuant: la compressione AI di Google che ora gira su CPU

TurboQuant di Google raggiunge una compressione 6x della cache KV senza perdita di precisione, rendendo l'inferenza AI su CPU standard una realta in produzione.