前々回の続編になります。
AobaZero同士の対局において,先手勝率が53%だとか54%だとかってことになってます。
これに二手目を強制的に8四歩としたところ後手勝率が7割程度となったのが上記のリンクの回です。
大雑把に言うと初手から2六歩,3四歩のときは先手が53%勝って,2六歩,8四歩のときは後手が7割勝つってことです。
これが相当異常な感じですね。
そして,この後学習が進んでもこの8四歩はなかなか指されない相当気持ち悪い状況です。(乱数が入って数回に一回くらい出てもいいくらいに思うのですが)
それで次に以下の実験をしてみました。
ちょっと改造してプレイアウト数100万まで可能なように少し弄りました。800で数秒かかりますからどのくらい大変か御想像の通りです。
初手2六歩の局面で探索開始したところ100万プレイアウトでも3四歩でした。
評価値も+100前後,つまり先手勝率やや高い状態です。
w687,w737,20190722_193305log_win500k_lr00001_wd00002_m64_iter_856000の三種の評価関数を用いましたが全て同様の結果でした。
つまり,100万プレイアウトしても8四歩にはならないようです。
それでは次です。
26歩,84歩の局面を100万プレイアウトしてみます。
通常対戦で後手勝率7割と出た局面です。
評価関数20190722_193305log_win500k_lr00001_wd00002_m64_iter_856000の場合
指し手76歩,評価値101で終了。
途中25歩,76歩,25歩,76歩と触れるが評価値は110前後
評価関数w737の場合
指し手25歩,評価値59で終了
途中プレイアウト4万から7万くらいで76歩が現れるがその他は25歩
評価関数w687の場合
指し手76歩,評価値86で終了
プレイアウト数6千台に25歩が少しあったのみ,残り76歩。
つまり,普通にプレイアウトする分には先手の方がよい。
通常対戦で7割が出る方がおかしい感じです。
前回書いたモンテカルロ法の精度の話に類するのかもしれませんが,ちょっとMCTS疑った方がいいかもしれません。
ちょっとよく分からなくなってきました。
---
11月3日追記
その後学習率を落としたAobaZeroのw777にてp20kだと二手目84歩になることを確認した。
floodgateにも流してあるので確認して頂ければ幸いである。