初期局面生成で乱数を使うがprobabilityの重みがかかっている。
それ以後10ms程度の思考時間で局面を進めたものをランダムでサンプリングしている。
2,3日かかって30M局面程度しか集まらない。
apreyややねうら王の局面生成が速いのは,初期に定跡を使って
その後は固定depthで進めているからだろうか。(一部乱数)
こちらは一晩で100M局面くらいになる。
技巧の方も自己生成データのみで学習できるように少々改造してみたが,局面が悪いのか少ないのか強化とは程遠い結果しか得られていない。
オリジナルに対して7勝89敗4分程度
甘くはないな。
#出村さんこのルーチンでどんだけ絞ったんだろうかとの疑問。
局面データ形式に互換性持たせると面白いかなぁとか考えてる。