AobaZeroで遊ぼう5(8四歩編)

bleu48.hatenablog.com

 

シリーズは更に続きます。

今回は二手目,8四歩の話です。

 

現在AobaZeroが絶賛学習中なのですが,後手番で3四歩,4四歩と突いて雁木形で組むパターンが多いようです。

AlphaZeroと藤井君は8四歩じゃないの?と思った方はちゃんと棋譜を見てる方ですね。

AlphaZeroの追実験として行われているAobaZeroが8四歩じゃないのは何故でしょうか。

公式サイトでも今風なのか先手勝率が高いのとか若干関係があるのかどうか気になります。

 

www.yss-aya.com

 

ということで,簡単な実験をしてみました。

使用したのはAobaZeroの開発版,学習率を落とした現状最強の評価関数,多スレッドで3200プレイアウトでの対戦です。

ただ一つ,後手の二手目を8四歩と固定しました。

結果,100戦で後手が68勝27敗5分と7割程度勝ち越すようです。

幾つかの棋譜をみたところ,まず当然ですが雁木系の駒組はなくなり角換わりや相掛かりの戦型ばかりになります。

あとは憶測になります。なんとなく直感ですが先手の対応が(結果負けているので当然と言えば当然なのですが)下手に感じます。類似局面が十分学習されていないのかもしれません。

また,勝率の偏りですが,初期乱数の出方で部分的な過学習が出ている可能性は当然あります。もちろん偏った勝率を考えるとこの学習も単なる過渡期でそのうち8四歩を学習する可能性も十分考えられます。まぁ,もう少しデータを集めないと結論めいたことは言えないでしょう。

ただ,初手絞るだけで同じエンジンで7割の勝率って結構すごいですね。

 

ということで,似たようなことを先手にもしてみました。大半が2六歩である初手を7六歩にしたところ,これは勝率ほぼ五分でした。ただ,千日手比率が10%近くまであがります。実験数が半端なので数値を出すのは控えておきます。

 

まぁ,非常に簡単な実験ですがちょっとしたヒントに繋がりそうなので早めに公開しておきます。類する実験等をどんどんやって何がどうなってるか確認して頂ければ幸いです。

---

追記:

個人的には自己対局のみによる強化学習は戦型選択が偏るためにあまりよろしくないって説を以前より提唱しております。