#llm

2 posts found

DeepSeek V4: модель 1,6T MoE з контекстом 1M токенів
aideepseekllm

DeepSeek V4: модель 1,6T MoE з контекстом 1M токенів

DeepSeek V4 представляє моделі Pro (1,6T) та Flash (284B) MoE з контекстом 1M токенів, гібридною увагою та трьома режимами мислення для самохостингу в ЄС.

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU
aicompressionquantizationllmgooglecloud

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

TurboQuant вiд Google досягає 6-кратного стиснення KV-кешу без втрати точностi, роблячи iнференс ШI на звичайних CPU реальнiстю для продакшену.