コンピュータ将棋界隈に限らずAIではベンチマークというものがあります。
画像認識でも定型のデータに対して何割とか計算速度で何秒とかですね。
コンピュータ将棋界隈だと自作エンジンでの最初の目標がLesserKaiでしょう。
floodgateにおいては古くはGPS将棋がベンチマークでした。随分前から今まではgikou2がベンチマークとなっています。レーティングはgps_normalが2150となっていた初期から今はgikou2_1cが3300となっております。(Ryzenの1スレッドと聞いています。)
基準が上がったのは対戦相手との関係です。自分より強い相手と弱い相手との対戦結果がレーティング計測には必要ですがこれらはレーティングが近い方が正確な値がでます。極端に弱くて全敗したり強くて全勝してもレーティングが出ないのは明白ですが,それに準ずる1勝や1敗も同様に信頼性のあるデータとは言い難いですね。
そのため例えば,AobaZeroプロジェクトでは計測精度の保障のためにelmoおよびKristallweizenの探索制限をつけたものを投入し近いレーティングの対象としています。
今回,第一回電竜戦においては基準ソフトを設置することになりました。
運営側として第5回電王トーナメント準優勝ソフトshotgunを投入します。このソフトは私の習作でもありますが,名人を打ち破ったPonanzaより上位のソフトでもあります。ハードウェアも当時と同じものを用意することにしております。
もちろん万一入賞しても受賞対象外となりますが,最新ソフト相手にどの程度戦えるのか比較対象として楽しみにしておいて下さい。
ちなみに2017年のshotgunは2コアのノートPCで2018年優勝HefeweizenのAWSクラスタに勝ったことがあります。(それも選手権の早朝に)
たった今のテスト対局で昨年バージョンのshotgun(2コアモバイルノート)が今年バージョンのHefeweizen(AWSクラスタ)に勝って頭を抱えている。 #30倍以上のマシンパワー差って何
— 48 (@bleu48) 2018年5月4日
当時軽い眩暈がしました。我ながら怖い子ですね。
開発途中のモデルではfloodgateでレーティング3500程度と記憶しています。