AlphaImpact 会社概要 事業内容 開発情報 お問い合わせ

機械学習で『買い』の降級馬を発掘する

2017/06/08更新

NUKUI

今回は、降級馬が多く参戦する夏競馬で勝つために『買い』の降級馬の特徴をロジスティック回帰で分析していきます。

降級制度

降級制度とは、夏競馬開始時に4歳馬の収得賞金を半額とする制度です。降級制度の目的は一言で言うと、高位階級の競走馬数と番組数のバランスの調整です。中央競馬におけるクラス体系では、収得賞金によって以下の図のように分割されています。

▼収得賞金額によるクラス分け

class_system

各クラスの番組数は、上図のピラミッドのように、上のクラスにいく程少なくなっていきます。条件戦では、勝利するごとに1つ上のクラスにステップアップしていき、勝てなかった場合はずっとそのクラスに残ります。しかし、そうなると番組数の少ない高位条件レースで滞留が起こり、レース出走権を勝ち取るのが難しくなるため、クラスの移動がスムーズに行かなくなります。それを解決するのが降級制度で、4歳馬の収得賞金を半額にすることにより、もう一度低位のクラスでの出走機会を与えられます。もし本当に実力のある馬だったらもう一度勝って賞金が得られるでしょうし、実力の無い馬だったら少しでも上位に食い込む可能性のある低位クラスの方が都合が良いでしょう。このように、降級制度は競走馬を所有する馬主にとっては嬉しい制度なのです。

しかし、この降級制度は来年で廃止予定である見通しとなっています1。廃止の理由としては、降級制度を実施しても高位クラスの滞留を防げていないことや、初心者にルールがわかりにくいということがあるようです。

降級馬は強いのか?

降級馬は一度そのクラスを勝ち上がった実績を持つ馬なので、大多数の在級馬に比べて強いのは競馬ファンの間では常識でしょう。2012年2016年の68月のレースにおける降級馬と在級馬の勝率・複勝率を比較してみます。

▼4歳降級馬

クラス 単勝的中率 複勝的中率 単勝回収率 複勝回収率
500万以下 14.4% 37.1% 79.0% 79.3%
1000万以下 12.5% 36.5% 56.4% 72.7%
1600万以下 17.6% 41.9% 94.9% 73.3%

▼在級馬

クラス 単勝的中率 複勝的中率 単勝回収率 複勝回収率
500万以下 5.6% 18.0% 75.5% 71.0%
1000万以下 6.3% 19.2% 75.3% 73.4%
1600万以下 6.0% 19.5% 93.1% 78.5%

的中率では降級馬が在級馬に比べて大きく上回っています。回収率は、500万以下では降級馬の方が高い値となっていますが、1000万以下、1600万以下では在級馬よりも低くなっている傾向があります。降級馬が強いというのは確かですが、馬券的な旨みがあるかどうかは別問題のようです。

『買い』の降級馬を発掘する

前述した通り、降級馬を闇雲に買うだけでは馬券収支のプラスには繋がりません。しかし、降級馬の中で本当に勝ちそうな馬とそうではない馬を見分けることができれば、馬券で勝つことが可能となります。そこで、機械学習のテクニックを使って、『買い』の降級馬の特徴を見つけていきたいと思います。

実験条件

問題設定としては、複勝圏内に入るかどうかの二値分類をロジスティック回帰を用いて解きます。対象データは、20142016年の68月に行われたレースに出走した4歳降級馬として、2014~2015年を訓練用データ、2016年を評価用データとします。目的変数は、複勝圏内に入ったら1、そうでない場合は0となるような二値変数とし、入力となる特徴量は以下の4種類を選択しました。

特徴量名 説明
クラス条件 500万以下・1000万以下・1600万以下のカテゴリ変数
高位クラス出走回数 出走レースのクラスより高位クラスのレースに何回出走したか
高位クラス最小着差 出走レースのクラスより高位クラスのレースにおける1着との最小着差(秒)
レース間隔 前走からの何週開いているか

ロジスティック回帰の実装には、scikit-learnのLogisticRegressionを利用しました。学習パラメータはデフォルト値としました。また、入力の特徴量はスケールを揃えるために平均0、分散1になるように標準化をしました。

予測結果

集計のために、ロジスティック回帰で予測された的中確率を端数を切り捨てて10%刻みに直しました。各的中確率の該当頭数を以下の図に示します。

degraded_count

次に、予測複勝的中率と実際の複勝的中率の関係を以下の図に示します。

degraded_hit_ratio

予測的中率が高くなるに従って、実際の的中率も高くなっており、予測性能を有していることがわかります。

その次に、予測複勝的中率と複勝回収率の関係を以下の図に示します。

degraded_return_ratio

驚くべきことに、予測複勝的中率40%以上の馬の回収率が120%を超えていることがわかります。予測的中率40%以上の馬は567頭中143頭いて、それら全ての複勝を買うと回収率が142%になる計算となります。3、4頭中に1頭が該当する条件で滅多にお目に掛かれないというわけでもなく、実用性がかなり高い予想理論であると言えるでしょう。

特徴量の重み

ロジスティック回帰の重み係数から、各特徴量がどのように効いているのかを見てみましょう。重み係数は以下の図の通りです。

degraded_weights

重みの符号は、正の場合はその特徴量の値が大きいほど予測確率をプラスにし、負の場合は値が大きいほど確率をマイナスにします。また、重みの絶対値は特徴量の重要度に対応します。今回試した特徴量の中では、高位クラス最高着差が最も強く効いており、上のクラスで出走したことがあっても、秒差が大きく離されていると、降級しても勝つのは厳しいということを表しています。

次に効いているのが高位クラスの出走回数で、何回も同じクラスのレースに出走していると勝ちきれていないことを意味するので、直感にも則した結果であると言えます。レース間隔は、最近まで高位のクラスで走っていた馬の方が強いという妥当な結果を表しています。また、クラス条件に注目してみると、500万下がプラスの重みで、1000万下、1600万下がマイナスの重みになっています。これの解釈としては、1000万下→500万下のレベル差が1600万下→1000万下やOP→1600万下のレベル差よりも大きいということを意味しているのではないかと考えられます。

まとめ

今回はロジスティック回帰を使って『買い』の降級馬の選別を行ないました。実験では、予測的中率が高い降級馬だけを狙って買うことで、回収率で100%を大きく上回ることが可能であることを示しました。

『買い』の降級馬の特徴をまとめると、

  • 降級前のクラスでの一番小さい着差が小さい
  • 降級前のクラスの出走回数が少ない
  • 前走からのレース間隔が短い
  • 1000万下、1600万下よりは500万下

以上のポイントを抑えて、降級制度最終年(予定)の夏競馬を思いっきり楽しみましょう。