低精度の演算の話題です。
GoogleのAIチームによるTurboQuant
以前から4ビットの話をしていますが、今回は更に減らします。
MXFP4やNVFP4の話(ブロック浮動小数点数) - 48's diary
fp4の話(4ビット浮動小数点数) - 48's diary
基本的にはベクトル表現として極座標を使うというアイデアです。
ざっくり言うと低精度となった直交空間ベクトルより極座標表現ならさらに削れるという感じでしょう。
コミュニティによる実験実装がオープンソースであります。
2ビット精度で破綻していないこと、3ビット精度で実用になりそうなパフォーマンスを示しています。
Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表 - ITmedia NEWS
こちらのようにニュース記事ではfp16(16ビット)に比べてメモリ使用量が何分の1などと過激に出されていますが、本件はLLMにおけるKVキャッシュに限る話ですのであまり踊らされないようにしましょう。
LLM界隈では既に4ビットが実用化されていますので、これが3ビットになるだろうという影響です。
他分野でここまで荒い演算を許すところはないかと思いますので、波及効果はあまりないかもしれません。
AIハードウェア分野でもこういった座標変換系が出てくると専用命令が追加されるかもしれませんね。
もしくはベクトル表現のデータ形式の定義やハードウェア実装ですね。
モデル本体も極座標表現で配布される可能性も出てきます。