Während wir teils über die Größe neuer Sprachmodellen staunen, hat Google sich um den Speicherbedarf genau dieser Modelle gekümmert. Mit TurboQuant (und den Begleit-Algorithmen PolarQuant und QJL) wurde ein Verfahren vorgestellt, das High-Dimensional Vectors – das digitale Gedächtnis jeder modernen KI massiv komprimiert. Das Ziel: Den berüchtigten „Key-Value Cache Bottleneck“ zu sprengen, ohne dass die Intelligenz des Modells dabei auf der Strecke bleibt.
Warum ist das wichtig?
KI-Modelle sind im Grunde wie hochbegabte Professoren mit einem extrem kleinen Schreibtisch. Der „Key-Value Cache“ ist dieser Schreibtisch. Ist er voll, wird das System langsam oder extrem teuer. TurboQuant ermöglicht es, diesen Speicherbedarf um den Faktor 6 zu senken. In Tests erreichte TurboQuant auf H100-Chips eine bis zu 8-fache Geschwindigkeitssteigerung im Vergleich zu unkomprimierten Systemen. Kurz: Es macht KI schneller, billiger und effizienter, ohne dass man neue Hardware kaufen muss.










