第45回のゲーム情報学研究会も無事終わりました。
また,反省なのですがやはり20分程度の口頭発表の内容じゃなかったですね。1つか2つのトピックに絞って丁寧に説明しないといけません。つい,盛り込んでしまうのが悪い癖。暇があればそれぞれのテーマを詳細に掘り下げたいです。
で,簡単に触れた近況です。
電竜戦では20ブロックの深層学習モデルを使っていましたが,その過程で使った強化学習用のデータを利用して5ブロックや15ブロック,40ブロックなどをテスト中です。
教師データがさくさく量産できればいいのですがそれには計算機が全然足りません。
5ブロックは1秒指しや2秒指しで結構強くなりました。10ブロックのdlshogiやGCT相手でもこの低ノードレンジでは優位に戦えます。
15ブロックは非常に良い成功例になりました。20ブロックの二番絞りに遜色ないというかむしろ強いかもしれません。floodgateにて2080Tiでレート4000超えですのでトップクラスでしょうかね。
今絞り中なのが40ブロックです。教師データ全部で2億強ありますが,40ブロックになるとこれを1エポック回すのに4日くらいかかります。
5エポック,6エポック目のものがfloodgateにてRTX3070でレート4000超えて意外にやるなって感じになってきています。RTX3070はRTX2080Tiと近い性能で,ざっくりRTX3090の半分くらいかと概算してます。
6000nps程度でこのレートは想定外です。10秒平均とすると6万ノードですからこれでdepth40近いやねうら王エンジンと戦えているのは結構驚きかと思います。
じゃあ,6万ノードくらいあればそこそこ戦えるのかとむしろ古いGPUを使ってfloodgateに色々放り込んでみました。お気づきの方もいるかもしれません。
低スペック軍はTensorCore勢に桁落ちの性能なので退役かと思っていたのですが計測にそこそこ使えると思いなおすような結果でした。特に上記の15ブロックやつが以下の結果です。
GTX1060でレート3700ですと,GTX1080Tiで3800以上は期待できます。
これって私が初参加だった統一ハードの公対局である第5回の電王トーナメントなら優勝ラインですよね。まぁ開発速度の問題もありますがKPPの三駒評価関数相手なら追いついたと言えるでしょう。(まぁ,もちろんi7 6700にGTX1080Ti乗せたのが公平な統一ハードウェアかと言うと違うでしょうけど)
上記GI45でもコメントしていますが,AlphaZeroはKPPの三駒評価関数相手にしか勝っていません。AobaZeroでは比較にKristallweizenが入っていますが対elmoより苦戦されているように思います。
Leela Chess ZeroもNNUE搭載前のStockfishに勝ってますが,NNUE搭載後は逆転を許しています。
さぁ,今年のコンピュータ将棋選手権はどうなるんでしょうか。
40ブロックで教師データを生成して強化学習が出来ればいいのですが現有ハードウェアでは2か月程度でクリアできる課題ではなさそうです。
---
参考に分散学習はじめたKataGoのグラフ載せておきます。
対数グラフで右上の紫色のところが40ブロックです。