疲労で早めにダウンして早々に起きる生活は健康的ですか?
二度寝するには微妙な時間なので起きておくことにして,昨日予想外の活躍をした「二番絞りプレミアム生」についてメモしておきます。
元ネタは以下のリンクです。
基本的には選手権用に作った教師データの再利用プロジェクトです。過去の教師データで使えそうなものを片っ端から試しています。電竜戦では予行演習から登場しています。
第一回予行演習では学習部試作品。🍺浅漬け君としてノートパソコンで対戦しています。
第二回予行演習では選手権用教師データ流用のみ。二番絞り名義でノートパソコンで対戦しています。
第三回予行演習ではAobaZeroの教師データを流用。V100が利用できたので学習が間に合ったのと同時に対戦時のマシンも高性能になり,二番絞りプレミアムに改名。
第四回予行演習ではこれより良い教師データは作るしかないとのことで自己対局で局面を作成し一度目の強化学習。
そして,電竜戦本番では二度目の強化学習を直前まで行っておりました。
一部壊れてたので教師データが120M局面しかない。最後の仕上げは強烈な過学習っぽい。 #捨てるか使うかはこれから
— 48 (@bleu48) 2020年11月20日
ポリシーシンクロ率69%!!過学習です!!! #新記録レベルだな
— 48 (@bleu48) 2020年11月20日
教師データを1億2000万局面程度作成して2エポック絞ったものが今回のモデルです。完成は木曜日夕刻で金曜日一日で確認作業でした。
テストデータとの確認作業で指し手の一致率7割近い前代未聞の過学習です。
いわゆる探索なしで局面の指し手を7割当てる深層学習モデルですが,教師データが偏ってるのは間違いないだろうと思っております。
対戦も数戦させてみたところ「弱くは・・・ないかな。」くらいの感じでした。せっかくなので投入した次第です。
上記,予行4のリンク先を見て頂ければ分かるように大会参加者の四分点くらいを狙う感じでB級上位を狙っていましたので,予選3位は望外の僥倖としか言えません。
(何度目か忘れましたが)詳細な検証は後程ですね。
いかがでしたか?
---
追記:
今からでもAWS借りたら?との方針変更もあるように思いますが急に借りれるほどAmazonも甘くありません。大会で使うようなハイエンドインスタンスは簡単に何十万円も何百万円も使えてしまうので事前申請が必要なのですよね。それと練習していないものを突然本番で投入するようなことはよほどのことがない限り適切には思いません。
---
さらに追記:
山岡さんのblogを受けて二番絞りの違いも同じように並べてみます。
探索部:
7月下旬にフォークして指し手にLCB最大手を選択,2秒探索時に9割が同じ指し手を選んでいたら即応などの処理を追加。最新ソースとの比較はしていない。
モデル:
ResNetの20ブロック(dlshogiソース中には10ブロックと15ブロックが存在する)
チャンネル数も少し増やしている
テストしたブロック数は5(予行1), 10, 15(予行2), 20(予行3以降), 30, 40だが30と40は学習過程で教師不足・計算能力不足で中断。
事前学習データ:
Kristallweizen(選手権用のもの)およびAobaZero
強化学習データ:
上記より1億強(予行4),さらに1億強(本番)
定跡:
なし
計算機:
初日V100×4枚,決勝RTX2060のノートパソコン