AobaZeroで遊ぼう7（続・８四歩編）

前々回の続編になります。

AobaZero同士の対局において，先手勝率が53%だとか54%だとかってことになってます。

これに二手目を強制的に８四歩としたところ後手勝率が7割程度となったのが上記のリンクの回です。

大雑把に言うと初手から２六歩，３四歩のときは先手が53%勝って，２六歩，８四歩のときは後手が7割勝つってことです。

これが相当異常な感じですね。

そして，この後学習が進んでもこの８四歩はなかなか指されない相当気持ち悪い状況です。（乱数が入って数回に一回くらい出てもいいくらいに思うのですが）

それで次に以下の実験をしてみました。

ちょっと改造してプレイアウト数100万まで可能なように少し弄りました。800で数秒かかりますからどのくらい大変か御想像の通りです。

初手２六歩の局面で探索開始したところ100万プレイアウトでも３四歩でした。

評価値も+100前後，つまり先手勝率やや高い状態です。

w687，w737，20190722_193305log_win500k_lr00001_wd00002_m64_iter_856000の三種の評価関数を用いましたが全て同様の結果でした。

つまり，100万プレイアウトしても８四歩にはならないようです。

それでは次です。

２６歩，８４歩の局面を100万プレイアウトしてみます。

通常対戦で後手勝率７割と出た局面です。

評価関数20190722_193305log_win500k_lr00001_wd00002_m64_iter_856000の場合

指し手７６歩，評価値101で終了。

途中２５歩，７６歩，２５歩，７６歩と触れるが評価値は110前後

評価関数w737の場合

指し手２５歩，評価値59で終了

途中プレイアウト4万から7万くらいで７６歩が現れるがその他は２５歩

評価関数w687の場合

指し手７６歩，評価値86で終了

プレイアウト数6千台に２５歩が少しあったのみ，残り７６歩。

つまり，普通にプレイアウトする分には先手の方がよい。

通常対戦で７割が出る方がおかしい感じです。

前回書いたモンテカルロ法の精度の話に類するのかもしれませんが，ちょっとMCTS疑った方がいいかもしれません。

ちょっとよく分からなくなってきました。

---

11月3日追記

その後学習率を落としたAobaZeroのw777にてp20kだと二手目８４歩になることを確認した。

floodgateにも流してあるので確認して頂ければ幸いである。