※本コラムは「2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する。(3)」の続きです
さて、ここまでの分析で、チームごとに対戦相手のトラッキングパラメータによって想定されるゴール数を予測するモデルを得られた。しかし2016年の結果から2017年のJ1リーグを予測する上で、考慮するべき重要な要素がある。選手の移籍だ。今オフは、各チームにおける主力・看板選手の移籍が例年よりも目立ったように思う。
※上記はごく一部であり、ここに掲載されていない選手が主力ではないという訳ではない
※()表記は、J1以外のチーム(J2・海外)の移籍
そこでまずは、J1リーグ全選手の特徴を把握するために、各チームの特徴の違いを分析した時と同様、自己組織化マップで可視化してみる。2016年のJ1リーグ戦に450分以上出場した選手の全トラッキングパラメータを用いて可視化した結果が下記となる。
※2016年のJ1リーグ戦での総プレー時間が450分以上であった選手を抜粋してマッピング
左下のゾーンは、ドリブラータイプが固まっている。齋藤学、宇佐美貴史(※2016年シーズン途中までガンバ大阪に所属)、カイオ(※2016年シーズン途中まで鹿島アントラーズに所属)、クリスティアーノ、駒井善成、ミキッチなどが該当する。中央下〜右下が司令塔、右下がボランチタイプの選手が多いようだ。このゾーンには、中村憲剛、小笠原満男、遠藤保仁などが該当する。中村俊輔は、データ上は、ドリブラータイプと司令塔タイプの中間あたり(中央下、やや左)となった。一方、右上のゾーンにはディフェンダータイプ、左中央〜左上にはフォワードタイプの選手がプロットされている。フォワードタイプの中でもドリブルで仕掛けるタイプの選手(大久保嘉人、ペトロ・ジュニオール、ピーター・ウタカなど)は下の方に、センターフォワードタイプ(レアンドロ、ジェイ、豊田陽平など)は左上にマッピングされている。このように、自己組織化マップを用いると、前情報無しでもスタッツデータのみから自動的に似た選手を近くにマッピングすることが可能となる。
※筆者は別の記事で、同様の2016年のJ1リーグ選手の自己組織化マップを作成したが、本稿とはデータ項目・期間が異なるため、上記とは結果が若干異なる。また、自己組織化マップは方向性がランダムに決まるため意味を持たず、あくまで選手間の距離のみが重要である点に留意。
さて、この結果を参照しながら、移籍選手の影響をどのように見積もるかについて考察する。まずは、各チームから、抜けた選手分のスタッツデータを間引く。次に、上記自己組織化マップを参照しながら、抜けた選手の穴を、既存の選手・新加入の選手含め、誰が埋めることになりそうか、シーズン前の練習試合などの情報も含め、想定スタメンを予想し、新たな出場選手分のデータを加える。なお、新加入選手のうち、J1リーグ以外から加入した、未知の選手(横浜F・マリノスのウーゴ・ヴィエイラ、ダビド・バブンスキー、ミロシュ・デゲネグなど)は、おそらく近いタイプと思われる選手のデータを参考に入れる。
さらに、直近の富士ゼロックススーパーカップの結果(鹿島3-2浦和)をもとに、モデルを更新することを考える。残念ながら執筆時点で、手元に富士ゼロックススーパーカップのスタッツデータは無いので、XGboost自体のモデルを更新するのではなく、ベイズの定理を用いることにする。ベイズの定理とは、事前確率と尤度から事後確率を求める定理で、下記のように表される。
今回は、ゼロックススーパーカップのデータDが与えられた時、鹿島と浦和の対戦における、それぞれの平均値θに基づくゴールの事前確率分布がどのような事後確率分布に変化するかを推定する。事前確率分布と尤度から事後確率分布を求める際は、上記の式から、下記のようにして求められる。
ここで平均値θが与えられたときのゴールの尤度は、冒頭で述べたとおりポワソン分布に従うことが知られている。そこで、ゴールの平均値自体(の事前分布)は、ガンマ分布に従うと仮定すると、事後分布もガンマ分布に従うようになる(このような、特定の尤度のもとで事前・事後の分布が同じになる関係を自然共役分布という)。これにより、更新された平均値θでのポワソン分布に従うゴール発生確率が求められる。