TurboQuantの話(さらなる低精度)

低精度の演算の話題です。

GoogleのAIチームによるTurboQuant

research.google

 

以前から4ビットの話をしていますが、今回は更に減らします。

MXFP4やNVFP4の話(ブロック浮動小数点数) - 48's diary

fp4の話(4ビット浮動小数点数) - 48's diary

 

基本的にはベクトル表現として極座標を使うというアイデアです。

ざっくり言うと低精度となった直交空間ベクトルより極座標表現ならさらに削れるという感じでしょう。

 

コミュニティによる実験実装がオープンソースであります。

GitHub - tonbistudio/turboquant-pytorch: From-scratch PyTorch implementation of Google's TurboQuant (ICLR 2026) for LLM KV cache compression. 5x compression at 3-bit with 99.5% attention fidelity. · GitHub

2ビット精度で破綻していないこと、3ビット精度で実用になりそうなパフォーマンスを示しています。

 

Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表 - ITmedia NEWS

こちらのようにニュース記事ではfp16(16ビット)に比べてメモリ使用量が何分の1などと過激に出されていますが、本件はLLMにおけるKVキャッシュに限る話ですのであまり踊らされないようにしましょう。

LLM界隈では既に4ビットが実用化されていますので、これが3ビットになるだろうという影響です。

他分野でここまで荒い演算を許すところはないかと思いますので、波及効果はあまりないかもしれません。

 

AIハードウェア分野でもこういった座標変換系が出てくると専用命令が追加されるかもしれませんね。

もしくはベクトル表現のデータ形式の定義やハードウェア実装ですね。

モデル本体も極座標表現で配布される可能性も出てきます。