TEAM SELECT

コラムColumn2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する(1)。

HOME » 2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する(1)
2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する(1)
2017.2.23

富士ゼロックススーパーカップが終わり、いよいよ2/25から明治安田生命J1リーグが開幕する。

本稿では、データスタジアムが保有する、2016年のJ1リーグ全出場選手の試合ごとのスタッツデータ※401項目を、機械学習手法を駆使して解析、各チームの勝敗予測モデルを作成することによって、2017年のJ1リーグの展望をデータから予測してみる。

※ここでのスタッツデータとは、選手の走行距離やスプリント回数といったトラッキングデータと、インターセプト、パスやシュート、ドリブルの回数といったプレーデータを指す。

 

サッカーの勝敗予測はどのように行えばよいだろうか。サッカーは、ゴールが対戦相手よりも多いチームが勝利するスポーツだ。サッカーにおけるゴール数は、野球やバスケットボールなど他のスポーツと比較し、一般的に少ない。2016J1リーグでは805ゴールが生まれたが、1試合における、各チームのゴール数は平均1.3ゴールであった。また、1試合における両チームあわせたゴール数が3ゴール以内だった試合は全体の71.6%となった。

さてこのような滅多に起きない事象は、ポワソン分布と呼ばれる確率分布に従うことが知られている。ポワソン分布とは、いわゆる左右対称の正規分布ではなく、01といった小さい値となる確率が大きい確率分布となり、事象の平均値から求められる。


2016J1リーグ全試合における実際の各チームのゴール数の分布(青い棒グラフ)と、平均値1.32016J1リーグの1試合あたりの平均ゴール数)に従うポワソン分布(赤い棒グラフ)は下記の通りとなる。

横軸:ゴール数、縦軸:頻度(各ゴールとなった試合数)

 

たしかにJ1リーグのゴール数の確率分布は、ポワソン分布で近似できそうだ。各チームの1試合平均ゴール数を用いれば、チームごとのゴール数を確率的に予測することができる。たとえば、川崎フロンターレ(1試合平均ゴール数:2.0)と浦和レッズ(1試合平均ゴール数:1.7)におけるポワソン分布に従うゴール数ごとの確率は下記の通りとなる。

横軸:ゴール数、縦軸:発生確率

青の棒グラフ:川崎フロンターレのゴール数の確率分布

赤の棒グラフ:浦和レッズのゴール数の確率分布

 

ゴール数が多いチームが勝ちとなるので、両者のゴール数確率を比較することで、勝敗を予測することができる。たとえば、上記のポワソン分布からの勝敗確率は下記の通りとなる。

 

川崎フロンターレ勝利:43.7%

引き分け:34.7%

浦和レッズ勝利:21.6%

 

これがもっともシンプルなモデルだが、精度向上のために、いくつかの重要なことを考慮しなければならない。サッカーはゴールが対戦相手よりも上回ればよい。すなわち、多くのゴールを目指すのではなく、まずは対戦相手にゴールさせず、少ないゴールで勝利する、堅守をベースにしたチームがある(得失点があるのでゴールが多いことにこしたことはないが)。また、ゴール数は対戦相手によって異なることが予想され、上位チーム、下位チームとの対戦では期待されるゴール数は異なると思われる。

 

そこで、試合ごとに、自チームおよび対戦相手チームの様々なスタッツデータとゴール数を機械学習し、異なる相手によって異なる平均ゴール数の期待値を予測し、その値を用いてポワソン分布からのゴール数確率分布を比較することが考えられる。

 

STEP.1: 試合ごとの自チーム・対戦チームのスタッツデータとゴール数の関係を機械学習

STEP.2: STEP.1のモデルを用いて、予想したい自チーム・対戦チーム(のスタッツデータ)から(平均)ゴール数を予測

STEP.3: STEP.2の平均ゴール数からポワソン分布によって、ゴール数を確率的に予測し、両チームで比較、勝敗予測とする。

STEP.2のゴール数自体を比較して勝敗予測としていないのは、確率としての幅をもたせるため。

※ポワソン分布を、対戦チームごとにもとめるアプローチも考えられるが、スタッツデータを機械学習

 することで、選手の移籍などで自チーム・対戦チームのパラメータが変化した際にも対応できるモデル

 とした。(今オフは主力選手の移籍はホットトピックである※詳細後述)


「2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する(2)」に続く

PICK UP Column