AobaZeroで遊ぼう14（続・近況編）

昨日の記事が一部の関係者には衝撃的だったようです。

トップレベルの実力をつけてきたはずがトンデモナイ落とし穴があったという話です。

bleu48.hatenablog.com

事実棋譜見て酷いなぁと思いました。

私の場合は将棋が趣味なので，定期的に棋譜チェックするのですがそうではない方は対戦勝率やレーティングなどしか見ていないようでこういった落とし穴にハマります。

将棋に限らずAI関係者が気を付けなければいけない点ですね。

@bleu48 これはひどい。w1525で試すと△91同馬と取り返す手は141手の可能手の中で141番目の最下位でした。Policyの値も0.000002と極端に低いです。そこまで91と19で馬が向かい合う状況が少ないとも思えないのでバグの香りがします・・・。
— 山下宏 (@yss_aya) 2020年7月22日

バグであって欲しいと思います。そして修正されたAobaZeroがAlphaZeroの追試として成功することを願っています。

しかしながら，バグであった場合長期に渡って行われた学習を再度行う必要があるのか，バグを修正したとたんにレートが300程度跳ねるようなことになるのかまだみえてきません。

怖いのはバグではなかった場合です。

実のところAobaZero贔屓の観戦者として以前より自己対戦しかしていないことによる弊害というものを考えていました。

戦型も自己対戦でしか出てこない戦型のみしか学習しておりません。学習局面であれば探索なしでも好手を返すDL系エンジンも，未学習局面で読み抜けが多いことは言うまでもありません。

また，極端な例として本件の馬の利きについても自己対戦では馬が取られることはありませんから，一種の非合法手として扱われ学習されている恐れはあります。

それから，こういったのも自己対戦の弊害かもしれません。

50手目から二連続素抜き。＞Krist_483_473stb_16t_100m vs. az_kai_0723 (2020-07-24 01:00) https://t.co/87rIoMTUIf
— 48 (@bleu48) 2020年7月23日

是非この棋譜自身の目で追って下さい。

飛車と角が連続で素抜きに合います。

また，素抜きの典型例である空き王手の類がAobaZeroは以前から読めていません。

これも自己対戦では咎められることはないので学習機会を逸していたのではないかと憶測しています。

以前より（私が機械学習始めた2017年から）CNN構造では長い利きを学習するのは難しいと報告しております。

ここまでで分かると思いますが以前より個人的にはAlphaZeroの報告を訝しんでおります。

AobaZeroに関しては今後の改善を期待して，チーム外からやんわり応援したいとおもいます。

---

ちなみに囲碁の方のAIではAlphaZero型で学習しづらい部分を追加コードを入れることで修正するのが現在の主流らしく，すべてを自己強化学習する流行は終わっているようです。

---

追記：

改造エンジンの敗着棋譜を追加しておきます。

これも馬が死ぬ筋読んでないな。＞gikou2_1c vs. az_kai_0723 (2020-07-24 08:30) https://t.co/oeLSJbfkW6
— 48 (@bleu48) 2020年7月24日

空き王手一発ｗ＞Krist_483_473stb_16t_100m vs. az_kai_0723 (2020-07-24 10:00) https://t.co/anNZRqLpik
— 48 (@bleu48) 2020年7月24日

いずれも大駒の利きが見えていないようです。