1 post found
TurboQuant de Google atteint une compression 6x du cache KV sans perte de precision, rendant l'inference IA sur CPU standard viable en production.