AobaZeroで遊ぼう5（８四歩編）

シリーズは更に続きます。

今回は二手目，８四歩の話です。

現在AobaZeroが絶賛学習中なのですが，後手番で３四歩，４四歩と突いて雁木形で組むパターンが多いようです。

AlphaZeroと藤井君は８四歩じゃないの？と思った方はちゃんと棋譜を見てる方ですね。

AlphaZeroの追実験として行われているAobaZeroが８四歩じゃないのは何故でしょうか。

公式サイトでも今風なのか先手勝率が高いのとか若干関係があるのかどうか気になります。

ということで，簡単な実験をしてみました。

使用したのはAobaZeroの開発版，学習率を落とした現状最強の評価関数，多スレッドで3200プレイアウトでの対戦です。

ただ一つ，後手の二手目を８四歩と固定しました。

結果，100戦で後手が68勝27敗5分と7割程度勝ち越すようです。

幾つかの棋譜をみたところ，まず当然ですが雁木系の駒組はなくなり角換わりや相掛かりの戦型ばかりになります。

あとは憶測になります。なんとなく直感ですが先手の対応が（結果負けているので当然と言えば当然なのですが）下手に感じます。類似局面が十分学習されていないのかもしれません。

また，勝率の偏りですが，初期乱数の出方で部分的な過学習が出ている可能性は当然あります。もちろん偏った勝率を考えるとこの学習も単なる過渡期でそのうち８四歩を学習する可能性も十分考えられます。まぁ，もう少しデータを集めないと結論めいたことは言えないでしょう。

ただ，初手絞るだけで同じエンジンで7割の勝率って結構すごいですね。

ということで，似たようなことを先手にもしてみました。大半が２六歩である初手を７六歩にしたところ，これは勝率ほぼ五分でした。ただ，千日手比率が10%近くまであがります。実験数が半端なので数値を出すのは控えておきます。

まぁ，非常に簡単な実験ですがちょっとしたヒントに繋がりそうなので早めに公開しておきます。類する実験等をどんどんやって何がどうなってるか確認して頂ければ幸いです。

---

追記：

個人的には自己対局のみによる強化学習は戦型選択が偏るためにあまりよろしくないって説を以前より提唱しております。