これまで浅い探索の評価で色々と計測をしてきた。本記事は下書き状態で放置しすぎたかもしれない。
特に二番絞りの計測中にdlshogiの新しいバージョンが公開されたのでついでに計測しておいた。気づいた人も多いかもしれない。
ELOレーティングは相対的な強さであるが乗数で効くので原理的に震度や音量などと同じく対数スケールである。横軸は評価関数をコールする回数を4倍ずつにしてあるのでこちらもほぼ対数スケールである。概ね線形なので安心した。
それと,二番絞りの現状としてdlshogiに対してwcsc31時点であったアドバンテージはほぼ無くなったと言ってよい。
選手権段階では一応リードしていたと思うが,前述の事情で予選落ちとなった。
理由が理由だけにモデルファイル等は公開はし辛い。
floodgateの計測値に関してだが,100戦程度でそれなりに信頼できそうな数値が出ているが,AobaZeroの歴代レーティングを見る限り最大幅200程度はレーティングにブレがあるのかもしれない。
http://www.yss-aya.com/aobazero/index.html
AobaZero_w3643_n_p800先手dlshogi_wcsc31_p3200後手で4局中3局が全く同じ棋譜 https://t.co/vQ8wROH3j5
— 48 (@bleu48) 2021年8月19日
深層学習モデルが同じであれば乱数を入れない探索部は同じ手を指して当然なのである。AobaZero側が乱数を入れているがあまり手が変わらないということだろうか。
こういった相性が出やすくなるのでdlshogi系が特定の相手に一方的に勝ったり負けたりするような状況でレートを出しても意味がない。一応上記のレーティング計測においては対戦相手毎の勝敗数に大きな偏りが無いか確認していたのはそのためだ。
また,以前からよく使われている手で指定局面をランダムに与えてそこから対戦させるものがある。局面が互角であればいいのだがどうもそれは相当難しい。
電竜戦後の計測は山岡さんにも協力頂いたのだが二番絞りが一番弱いと出た。同じ計測手法を手元でも確認しほぼ同様の傾向を得た。しかしながら,電竜戦では二番絞りはV100x4でdlshogiのA100x8を中終盤のねじり合いで逆転勝ちしている。マシンパワー差は4倍以上を跳ね返したと言って良い。万に一つのレアケースを引いたか実は二番絞りの方が相当良いモデルかのどちらかだろう。
RTX3090級で比較しても当時二番絞りの方が強いと言うのが手元の計測である。もちろん短時間計測と長時間計測の差かもしれないが,互角局面による短時間計測というのを盲信することができない。
こちらにあった一致率というのも計測してみた。実はここでもちょっとしたバグで結構時間を費やしてしまった。今は修正されている。また,山岡さんに確認したが上から第一回電竜戦,第31回選手権,第二回TSEC,先日の長時間マッチと言ったものと対応する。
バージョン | 方策(指し手)一致率 | 価値(勝敗)一致率 |
---|---|---|
GCT電竜 | 0.46163575 | 0.73494528 |
dlshogi with GCT | 0.48964297 | 0.75278556 |
dlshogi 第2回TSCE時点 | 0.51964970 | 0.76499052 |
dlshogi 最新 | 0.52322504 | 0.76564239 |
二番絞りwcsc31 | 0.4929 | 0.7520 |
wcsc31時点では一応二番絞りの方が一致率が高いと言えるのだろう。
ただ,この辺も使用したテストデータに対する一致率である。二番絞りも選手権後のモデルは更に高い値が出ているが対戦で強くなった雰囲気はあまりない。
うちのテストデータだと以前から方策一致率が7割,勝敗一致率9割と随分高めに出ており頭打ち感があるので今後対応を考えようと思う。
こういった指数と強さが対応すれば強化学習も楽なんだがねぇ。
---
9/12追記:
この後,山岡さんの方でテストデータを少し弄った実験をされている。
将棋AIモデルのテストデータの作り方 - TadaoYamaokaの日記
二番絞りの数値を見る限り微差かなぁ?
もっと優先すべきパラメータが他にありそうな雰囲気である。(もちろん何かと断定できないけど)