Google-dan yaddaş performansını 8 dəfə artıran süni intellekt sıxışdırma alqoritmi: TurboQuant
Google, yeni süni intellekt yaddaş sıxışdırma alqoritmi TurboQuant’ı təqdim etdi. Bu texnologiya, süni intellektin iş yaddaşını kiçiltməyin yeni bir yolu olaraq, performansı təsir etmədən təqdim edilir. Böyük Dil Modelləri (LLM-lər), geniş kontekst pəncərələri ilə böyük sənədləri və mürəkkəb danışmaları emal etdikcə, Anahtar-Değer (KV) önbellek dar boğazı ilə qarşılaşır.
Modelin işlədiyi hər bir söz, yüksək sürətli yaddaşda yüksək ölçülü bir vektor kimi saxlanılır. Uzun müddətli tapşırıqlarda, bu rəqəmsal kopya sürətlə böyüyür və çıxarış zamanı istifadə olunan GPU, VRAM sistemini istehlak edir. Bu səbəbdən zamanla modelin performansının sürətlə azaldığı müşahidə edilir.
Yalnız proqramdan ibarət olan TurboQuant alqoritm paketi, aşırı KV önbellek sıxışdırması üçün riyazi bir şablon təqdim edir. TurboQuant, müəyyən bir modelin istifadə etdiyi KV yaddaş miqdarını ortalama 6 dəfə azaldır və diqqət logitlərini (attention logits) hesablamaqda 8 dəfə performans artışı təmin edir. Bu baxımdan, bunu modellərində tətbiq edən müəssisələrin xərclərini 50%-dən çox azalda biləcəyini söyləmək mümkündür.
Google Research-ün elan etdiyi bu yenilik, 7,7 milyondan çox görüntüləmə alıb. Yayımından sonra 24 saat ərzində, icma üzvləri alqoritmanı Apple Silicon üçün MLX və llama.cpp kimi populyar yerli süni intellekt kitabxanalarına köçürməyə başladılar. Texniki analist Prince Canuma, X-də paylaşdığı bir yazıda Qwen3.5-35B modelini test etmək üçün MLX-də TurboQuant-ı tətbiq etdiyini açıqladı.
Google araşdırmaçıları, 2024-cü ildən başlayan və illərlə davam edən bir araşdırma prosesi nəticəsində TurboQuant-ı təqdim etdilər. 2025-ci ilin əvvəlində, PolarQuant və Quantized Johnson-Lindenstrauss (QJL) kimi əsas riyazi çərçivələri əhatə edən məqalələrlə qarşımıza çıxacaqlar. TurboQuant, halüsinasiya yaradan nicelleşdirmə xətalarını aşmaq üçün PolarQuant və Quantized Johnson-Lindenstrauss-dan faydalanır.
Teorik əsaslı alqoritmalar və əlaqəli araşdırma məqalələri, hazırda pulsuz olaraq istifadəçilərə təqdim edilir. Hətta korporativ istifadə də mümkündür. Google-ın təqdim etdiyi resurslar, zəkadan ödün vermədən model ölçüsünü kiçiltmək üçün təlim prosesi tələb etməyən bir həll təqdim edir.

Bir cavab yazın