※本コラムは「2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する(2)」の続きです
では、いよいよ機械学習を用いて、スタッツデータからゴール数を予測するモデルを作成していく。
今回は、XGboost(EXtreme Gradient boosting)という手法を用いて機械学習した。XGboostの説明の前に、その元となる決定木について説明する。
決定木とは、(ジニ係数などの)分岐基準を用いて、“もっとも良くデータが分かれる”パラメータを選択し続けていくモデルとなる。決定木は一般的に下記のようなアウトプットが得られるため、解釈が容易というメリットがある。
※下記は横浜F・マリノスのゴール数予測の決定木
一方で、決定木はパラメータが多い場合、必ずしも最適なパラメータが選択されるとは限らない、という欠点がある。たとえば、異常値や影響の大きいパラメータの存在などによって、最初の分岐が(最適なものではなく)誤って決まると、以降の分岐は、その前提で進んでいくことになる。
そこで、ある決定木で、誤った分類をされた結果(今回だと、ゴール数予測を誤った試合)に特に重みをつけて、その結果を当てるように次の決定木を作り、さらにその決定木で誤った分類を、その次の決定木で当てるよう、決定木の予測精度を改善していく、ということを繰り返すGradient Boosting Treeという手法が考察された(正確に言うと、Gradient Boostingという逐次的学習手法があり、そのモデルに決定木を用いたGradient Boosting Treeがある)。XGboostは、Gradient Boosting Treeの一種(の実装方法)となる。
※ちなみにboosting treeは、XGboostのほか、FastBDT、lightGBMなどの実装が開発されている。
では、XGboostによって、各チームのゴール数を予測してみる。クロスバリデーション(全試合を任意の数に分割して、ある試合群を学習データとし、残りの試合のゴール数を予測する、ことを繰り返す)をかけて、最適なパラメータチューニングをした。
たとえば、鹿島アントラーズにおける予測モデルの結果が下記の通りとなる。概ね、実際のゴール数に対して、スタッツデータからゴール数を正しく予測できている。
※横軸:実際のゴール数、縦軸:XGboostによってスタッツデータから予測したゴール数
2016年の年間順位上位3チームにおける、XGboostによってゴール数予測に重要とされたスタッツデータは下記の通りとなった。
※下記の重要度は、あくまでゴール数予測のための判断に重要な指標ということであり、必ずしも高い方
がゴールにつながるということではないことに留意。(ある値以下だとゴールにつながる、という意味で判断に重要となるケースもある)
前述の、ゴール数との相関が高い項目とは、違う項目が上位にきている。単純に1つの項目でゴール数を予測するなら相関が高いものに着目することも考えられるが、複数の項目の組み合わせからゴールを予測するなら、上記の項目が重要ということになる。
たとえば、鹿島アントラーズにおける上記項目で、ゴール数を予測する決定木を作成すると、下記のとおりとなる。
1試合における鹿島アントラーズの全選手のドリブルキープ時間合計が44秒以内で、セットプレーから3タッチ以内のシュートが4.5以上であれば平均3.5得点が期待できる。(2016年シーズンでいうと、上記条件にあてはまる試合は、1stステージ第14節:広島戦4-1、2ndステージ第2節:広島戦4-2、2nd ステージ第3節:名古屋戦3-0、2nd ステージ第4節:甲府戦3-3、が該当する。)一方で、鹿島アントラーズの全選手のドリブルキープ時間合計が44秒以上、かつトラップキープ時間が558秒以上、かつGKからのミドルフィードの成功が2.5回以下だった場合、ゴールは0.2点しか期待できない。(実際、2016年シーズンで上記条件にあてはまる試合は、10試合あり、そのうち8試合は0点である。※残り2試合は1点)鹿島アントラーズにおいては、ドリブルで切り込んでいくタイプの選手からチャンスメイクする、というよりは、1人1人のキープ時間はできるだけ少なくして、ボール離れよく展開できたときにゴールにつながったということだろう。(金崎夢生、カイオ、遠藤康のドリブルからのチャンスメイクは印象的であったものの)
対照的に、前述の横浜F・マリノスのゴール予測の決定木(実はXGboostによって重要度の高い項目に絞っていた)を見てみると、ドリブルキープ時間が高いことがゴールにつながっていることがわかる。(最初の分岐のみ、ドリブルキープ時間が短くてもセットプレーから得点できた試合を表す)実際、2016年シーズンの横浜F・マリノスは、セットプレーに加えて、齋藤学、マルティノス、前田直輝などの、ドリブルからのチャンスメイクが多かった。