技巧2改造記録(中間報告)

オープンソースのわりにあまり弄られていない気がする技巧ですが,

うちでは以前よりスパーリングパートナーとして教材として遊ばせて頂いております。

 

bleu48.hatenablog.com

 

前回の続きで教師局面を作成し強化学習を試みました。

計算時間はi9-7980XEをもってしても1週間以上かかる大作です。

強くなったかなぁとオリジナルと対戦させてみたところ15勝23敗程度まで進んだところで諦めて切ってしまいましたが,考えてみたら今までで一番まともな戦果です(笑)

学習用の棋譜が最近のfloodgateなので結構モダンな差し回しが見られました。具体的なところでは,後手番角交換拒否からツノ銀雁木風に組みながら右玉に展開したのち,交換した駒を駆使して玉頭戦を挑むような一局が印象的でした。3三や7七に銀が上がらないのがオリジナルとの絶対的差異です。

もう一段強化学習を仕掛けてみます。

 

で,タイトルが改造記録になってる辺りで気づいたかもしれませんが,本体に本格的に手を入れ始めております。以前は学習部について教師局面を総括して管理する部分を改造していたのですが,今回は探索部を少し弄ってみました。

具体的には前向き枝狩り部分の変更が大半で,土日を使って相当の変更を施しました。ざっくりオリジナルと比較対戦をしているところ,現在47勝40敗13分で気持ち強くなったかなぁという辺りです。また,時間が出来れば更新しようと思います。

具体的にどの変更がどういった効果を及ぼしたかについてはデータを取るだけでも膨大な計算時間が必要だとやね師匠も仰っております。どうしたもんかねぇ。

 ---

4/5追記

その後,追加の強化学習を2パターン行ったら両方とも6割程度の勝率でオリジナルを上回った。これで,評価関数・探索部ともにオリジナルより強くなったと言える。

具体的には36スレッド2分切れ負けで60-0-40および61-1-38である。技巧エンジン同士なのに引き分けが激減しているのが面白い。詳細はボチボチ調べて行こうと思う。

レーティング的にはelmo@wcsc27と並べるかどうか微妙ってところだろうか。

省リソース戦なら優位かな。