電竜戦も6シーズン目です。
運営サイドとして今年も色々と模索していますが、プレイヤーとしても今年の新しいものは「三番絞り」です。
といってもとってつけたようなもので、AobaNNUEが強いことが判明してから同じ手法を試そうと手元の二番絞りをベースに行ってみたものです。
思いのほか時間がかかっており、複数パラメータ同時に仕掛けたのですが一番最初に学習が終わったもので丁度今予選を戦っています。
もう一つ終わっているのですがどちらが良いかとの判別が難しいというのが現状です。明日入れ替えるかもしれません。
行った手順は山下さんのBBSに書かれたものとほぼ同じです
http://www.yss-aya.com/bbs/patio.cgi?read=195&ukey=1
野田さん公開のHaoでdepth9のデータが元です
コンピューター将棋ソフトの NNUE 評価関数の学習データを公開しました。 Hao で depth=9 で生成しています。https://t.co/qrsiC4CTQC
— nodchip@tanuki- (@nodchip) 2024年3月3日
静止探索局面に書き換えを行った後、二番絞りの静止局面評価を50%:50%で平均化したものが教師データとなります。
簡単に書きますが80億局面ほどあり、ハイエンドPCを2台用いても評価値の差し替えだけで1週間以上要します。
たとえば80億秒が253年です。Threadripper128並列で0.1秒で一局面を処理できたとしても2か月以上かかるのですが、野田さんが公開されたものがこれくらいのデータ量ということです。うちのLAN回線ではダウンロードに10時間近くかかりました。
さらに山下さんの報告では学習に2週間ほど要したそうですが、うちでは残り時間を考えて簡略化して数日で終えています。恐らく、収束管理が甘いためかAobaNNUEより弱い印象です。
電竜戦本戦後に再度時間をかけて確認したいと思っています。
80億局面も必要なのかどうかに関しては正直そこまでの比較実験を行っていないので分かりませんが、二番絞りでの経験では2億では全然足りないのでせめて4,5億欲しい。可能なら10億局面と考えて強化学習を進めていました。そのため1ステップに要する時間が最終局面で1年を超えました。さすがに手持ちのGPUでは手に負えません。
あまりこういう物量勝負をしたくないのですが・・・


