二番絞りの二番煎じ

扱い遅れましたが、DeepMindがまた話題の新作です。

本当に素晴らしいですね。

一切の探索なしでチェスのグランドマスターレベルだそうです。

どこかで聞いたような話ですね。

一年前に私が将棋で到達したところです。

多くの対戦プレイヤーには感謝申し上げます。

実際チェスよりも将棋の方が駒の数、盤面サイズ、駒の再利用と複雑性が高いことからコンピュータで扱う場合も高度であるとされています。

また、Google DeepMindの方からプログラムの方が出ています。

どちらかというと学習後のモデルの方を見せていただきたかったですね。アルゴリズム的にはそれほど複雑ではないのですが、とても計算量が真似できないレベルですので

で、二番煎じまでは言い過ぎに思っていたのですがこの手法、本当に二番絞りそっくりです。

二番絞りは2020年にKristallweizenの学習データの流用と言うことで始めたプロジェクトで命名由来もそのままです。KristallweizenはNNUE型評価関数で多くの局面評価で教師データを生成します。8億くらいまでは覚えています。

本件のDeepMindも同じようにNNUE型評価関数が導入されたStockfishで多くの局面評価を行い、そのデータを深層学習モデルに学習させたものです。まったく同じプロセスですね。ただ、局面数が1000億の桁だそうです。

敢えて差異を探すと二番絞りはonehotベクトルで学習させたのに対してDeepMindは合法手全ての局面評価値を算出した分布学習であった点ですね。計算量も保存するデータ量も桁違いです。

二番絞りの方はその後リソース不足に悩みながらもAobaZeroのデータ流用や独自の強化学習に入ります。

計算機リソースがあればKristallweizenのデータのみでも同じレベルに届いたかもしれませんね。暇と金が余っていれば試してみたいですが計算機リソースをそこに突っ込む気はしないですね。

Googleほんとうにすごい。私の初期の手法のみでも到達可能と検証いただいて感謝申し上げます。