ベンチマーク計測の件(WCSC29に関して)

レーティングという言葉が独り歩きしている(風に私には思えます)

勝率?

 

テレビゲームやったことがある人ならわかると思いますが,難局面でも一度攻略できたら二度目は比較的簡単に攻略できるようになります。これは陸上競技の記録や体操の新技などでも見られる現象で理由はよく分かってない部分もあるらしいとか。

 

もちろん,そんなに単純な話ではないでしょう。

考えれば考えるほど分からなくなるくらいには将棋は奥が深いものです。断定的に仮説が検証できたと思った瞬間に覆される反例局面が見つかったりするので,正直分からないことだらけと言っていい状況。

 

だから,「強いですね」と言われた時の対応が「何故かよく分からないけど勝つんですよ」となります。気分を害されたら申し訳ないですが実際上手に説明できなくて困っています。

 

実際のところ例えばWCSC29(第29回世界コンピュータ将棋選手権)の準備段階で,伝家の宝刀と言うべき横歩青野流で後手勝率が5割を超えるケースが多々出て正直戸惑いました。特に相手に大駒を捌かせてからじわじわと竜,馬を詰めることが多い不思議な評価関数が作成されてから悩むことが多くありました。本件ドラゴンスレイヤー系列評価関数と命名

 

連休前まではこれを4,5パターン仕上げて,その中から最強を選出し参加する予定でした。で,計測の問題です。

KPPT系の評価関数でもそうでしたがAVX2の威力は相当なものです。NNUE系でも同様なのですが,様々なニューラルネットワークサイズをテストする際にどうもL1とL2のそれぞれのキャッシュサイズに大きく依存するような傾向が見えました。断定的に言うほどではないのですが,32コア64スレッドのスレッドリッパーより18コア36スレッドのSkylake-Xの方がパフォーマンスが出るとか,Skylake-XはL2キャッシュが多いのでSkylakeの後継のCoffeelakeよりもクロック比でnpsが稼げる(但し2層目のサイズ依存でその差は結構変わる)とかそういう話になります。また,選手権本番でもちいる予定にしているm5インスタンスはSkylake-SPと言われるSkylake-Xの親戚です。

 

また,レーティングサイト案件ですが対戦時一手同一時間で計測するのが歴史的に広まっています。これは私の参戦当初からあまり有効でない計測であると思っていますが,ある程度手抜きをして計測しないと計測自体が終わりません。選手権と同条件で500戦行おうとすると優勝賞金では足りないでしょう。で,F1レースに参加する予定なのに普段は国産量産車で練習をするわけです。

計測を初めて気づくのが1億ノードを超えたあたりから昨年のうちのKPPT評価関数がすごく強い。5億超えると上位クラスのNNUEでも軽く負かしてしまうくらいです。もうこれで今年も出て良いんじゃないかとかTamaさんとチャットしてたくらいです。

ところが,illqha3と言われる評価関数が同様に1億超えたあたりから他の評価関数を突き放します。正直どのパターンでもうちの勝率が3割切ってくる感じでした。

こうなると角交換より横歩の後手の方がマシとか5割未満の悲観的な比較合戦でお葬式ムードです。

加えて,この億を超える計測ですがSkylake-Xのマシンでも1戦1時間近くかかります。

本番はこの数倍ですのでまだマシとかそういうのですが,手持ちの最速マシンで一日20戦程度しかできない計測ってどう!?

 

他の低スペックマシンの計測値は信用ならんって状況です。

ちなみに昨年は低スペックマシン混在で計測してました。

 

で,5月2日にチームメイトから「強いのできたから確認して」と連絡が入ります。

あと一日,20~25戦くらいしか計測できないんですが,これどれと対戦させて様子みましょうかねww

ってことでillqha3と対戦させました。そうして持ってきたのがアレです。

 

序盤定跡や時間配分計測など微調整をこの評価関数でやってないまま投入ですので,もう出たとこ勝負もほどほどです。

それも二次予選の初戦がdlshogiとの戦いでしたが,これですよ。

  

昨年の二次予選も朝から負けてたのでそういう流れかと敗戦を覚悟してたくらいです。

二戦連続で負けたら昨年版と差し替えようかとか予選落ちもあるかなぁとつぶやきがあったのは事実です。

ですのでその後予選トップ通過であったり,決勝であれだけ戦えたのは思ってたよりよかった!!!って感想になるわけです。

「悔しい」ってのは無いわけじゃないですがねぇ。

 

で,戻りますが選手権レベルの計測です。

御依頼があれば行いますが,m5インスタンスが時間5ドル強ですので私の場合5台のクラスタを構成すると時間3000円程度,1試合1時間と見積もって500戦で150万円になります。対戦相手も同じサイズのクラスタでしたら300万円で500戦分の棋譜が作成できると思います。レーティング調査の御依頼がありましたら経費負担で遠慮なく申し出下さい。