二番絞りシリーズについて

叡王戦途中で寝落ちて深夜に目覚めてしまったので日記更新してます。

夕休前に豊島竜王優勢でしたが，そのまま押し切ったようです。

ところで，今回の電竜戦予行でやはり個人的目玉は二番絞りです。

2nd_pressからnobanshiboriの間に何があったのじゃ、間に合ったのか？
— W@nderERの中の人 (@ihme_vaeltaa) 2020年9月6日

主旨はfloodgate上の以下の比較でしょう。

あまり計画的に命名していないので酷いですが，2nd_pressは連続対戦テストでした。V100×4のうち3つを使って，前回の二番絞りモデル（選手権用に作った教師データを絞ったもの）で探索しています。まぁ普通なのですが連続対戦時にトラブル等で落ちてません。（確認大事）

nibanshiboriは電竜戦の後，そのまま接続サーバだけ変えて戦ってますので電竜戦と同じでV100×4で今回AobaZero教師で学習したモデルです。電竜戦予行では対戦相手都合（？）で落ちてしまいました。

ええ，V100のひとつで昨日（電竜戦予行３当日）の昼まで学習しておりました。

テスト数局ですが割と強くなったなぁと思ってます。

特に強敵相手に負ける場合でも序中盤でこちら優位くらいの局面まで誘導できている感じはあるので結構満足しています。

元ネタは二番絞りのコンセプトのままですが，今回の進展は遊びといいつつそれなりに構想はありました。

１．深層学習の強化学習は計算機コストがとんでもない（個人では辛い）

２．３年前はfloodgateデータ（十数万対局）ややね師匠配布データ（１００億局面）などで試行

３．３年前GTX1060から今はRTX2080TiやV100で，全体の学習速度と一度に扱えるミニバッチサイズが劇的に増えている

４．AobaZeroデータ（1470万対局，約200億局面）の公開

１は言うまでもないですが，ガチでやってる山岡さんとか囲碁やってる山口さんとか計算能力に飢えてる感じですよね。GPUを個人資産で10枚以上持ってますよね。私には無理と思ってます。

２は言語化しづらいのですが結構色々試してます。2017年から始めたものですが自分の中にノウハウが構築されている感じです。それなりに勘が効くレベルになってきた感じですが客観的データで裏付けしなくてはならないなぁと思うこの頃です。

３については１の裏返しですね。初期に始めたときはGPUメモリが6GBだったのがV100で32GB使えるのが大きいです。半精度浮動小数点数で更に倍って感じです。お借りできたのがミソでしょうか。

４はもちろん現行最強と言っていいデータだと思います。やねうら王系でも教師データを作りますがfloodgateの実戦レベルで1000万対局はリソースが足りません。学習手順含め公開頂けているので感謝です。

と条件が揃ってこその二番絞りです。自己強化ができなくても絞りだけ試みてみるのも一興と言ったところでしょうか。

データ構造が違いますがそれに合わせた学習部を作成するのも楽しいものですよ。

---

追記：

教師データの質についてはこちらが詳しい。