【競馬統計解説】過去30年間データは意味がない!?ベストな統計期間は何年くらい?

統計分析解説

 どうも皆さま、本記事は競馬の統計データを分析する上で大体何年前のデータから分析するのがベストなのか?を解説した記事になります。
 インターネットが発達して以降、競馬レースの過去データを入手することは大変簡単になり、過去のレースデータから統計的にレースを予想するという方も増えてきました。(最近ではAIも活用した予想も当たり前になってきています)
 しかし、一部には「データをどのように活用して分析すればいいのか分からない…」といった方も多いのではないでしょうか。
 今回はそういった方々のためにまず競馬予想に最適な統計期間の長さをお話していきます。

「過去30年データ」は「競馬予想」に不向き!?

 競馬情報サイトや情報紙などではよく「過去5年」や「過去10年」、長いものでは「過去30年」といった期間で統計的なデータを紹介していることが多いです。
 調べる期間が長いということはデータの数が多い信用度が高いと普通は感じますよね。これは一般的な統計分析のイメージとしては正しいと言えるかもしれません。
 しかし、競馬予想における統計分析に一番求められる要素は「傾向の分析」、特に「直近の傾向」が重視されます。それを前提に考えてみると、「過去30年データ」による分析は明らかに不向きになるのです。

大学受験で例えてみると…

 大学受験で例えてみます。あなたはとある大学Aに受験すると想定しましょう。
 
 大学Aに合格するために何をするでしょうか?
 もちろん勉強ですよね。ではどのような勉強をするでしょうか?
 おそらく大抵の場合は受ける大学Aの過去問を買って勉強すると思います。

 さて、ここでまた質問です。過去問を買って勉強するとして何年前までの問題を勉強するでしょうか?
 3年前?5年前?10年前?もっと前の30年前?
 多くの方は5年前くらいまでの問題をまず一度チャレンジしてみるでしょう。そしてそれを復習して勉強すればそれなりに対策はしただろうと思うはずです。
 なぜ10年前くらいの問題は勉強しないのか?
 それは「今の問題傾向が10年前の問題傾向から大きく変化しているかもしれない」からです。
 高校の学習内容は数年ごとに変化していますし、その年代ごとに求められる能力・測られる能力は変わってくるものです。当然古い過去問であればあるほど今の問題と乖離している可能性は高くなります。30年も前の問題となるともはや難易度すら大きく変わっているかもしれません。

長い期間になるほど傾向が乖離してるデータ同士を一括りにしてしまう(図1)

 そして、それは競馬にも同じことが言えます。

日本競馬は30年で様々な変化があった

 今から30年ほど前の競馬を考えてみてください。(知らない方は調べてみてください)
 ダービー馬と言えば、「ミホノブルボン」「ウイニングチケット」「ナリタブライアン」など、今となっては輝かしい過去の名馬となった存在ばかりです。
 彼らの父親はそれぞれ「マグニテュード」「トニービン」「ブライアンズタイム」と当時としては十分に名の通った種牡馬たちです。

30年ほど前のダービー馬とその父親(表1)

 さて、この種牡馬たちは現在もサイアーライン(※父親としての系譜)で残っているのでしょうか。
 調べてみればよく分かると思いますが、答えとしてはほとんど残ってはいない血統ラインになっています。(少なくとも主流のサイアーではなくなっています)
 1990年代に入って「サンデーサイレンス」が種牡馬として導入されて以降、日本のサラブレットの血統は大きく変わり、「キングカメハメハ」「ディープインパクト」が登場してからは明白に様変わりしまた。
 つまり、30年間で血統の流行りは全く違うものへと移ってしまっているわけで、それを一括りにして統計を取ってしまうと過去に隆盛した血統と現在に流行っている血統を同時に評価してしまうことになってしまいます。
 これは他のデータにも言えます。レーススケジュール編成や芝状況、競馬場の改修など30年間で変化した要素は複合的なモノを含めて多数あり、30年間というまとまりで分析してしまうとそれらの変化前と変化後も一緒くたになってしまうのです。
 
 競馬予想に求められるのは「今の傾向」です。古いデータによって現在のデータがぼやけてしまうことは予想精度を下げる要因です。30年間のデータをまるまる使った単純な統計分析では「今の傾向」を調べるには間違いなく不向きになるのです。

ベストな統計期間は「5年」?それとも「10年」?

 それでは統計期間は一体何年ほどがいいのでしょうか?
よく扱われる期間は「5年」または「10年」ですが、私が一番に推奨するベストな期間は5年です。

10年間の天皇賞秋の優勝馬を見てみよう

 なぜ5年がベストであるのか?これは血統の流れで考えた時に最適なスパンであると言えるからです。ここではもっとも分かりやすい例として、2013年~2022年までの10年間の天皇賞秋の優勝馬の表を使った図で説明していきましょう。

親・キタサンブラックの5年後に子・イクイノックスも優勝(図2)

 上の表を見てた頂くと、2017年に「キタサンブラック」が優勝しており、その5年後の2022年にその子供の「イクイノックス」が優勝しています。
 この間隔がちょうど5年であることに注目して頂きたい。もしこの2013年~2022年の期間を利用して統計分析する場合、直近10年分析ならキタサンブラック・イクイノックスの親子2世代が含まれ、直近5年分析ならイクイノックスの1世代だけが含まれることになります。
 つまり、大まかにみれば10年で「2世代分」、5年で「1世代分」となり、1世代のサイクルで約5年と推測できます。(※イクイノックスがキタサンブラックの初年度産駒であることも考慮すれば間隔が5年より短い可能性は低いと考えられます)
 よって、血統における1世代5年であるため「直近の傾向を分析する」となった場合、直近の世代分過去5年分と考えて分析するのが妥当であると言えるのです。

まとめ:統計分析するなら「過去5年間」のデータ!!

 今回は血統の流れを中心として統計分析の最適な期間を説明しましたが、いかがだったでしょうか?
もちろん私が説明した要素以外の観点から見れば違う期間で分析した方が良い可能性もあります。
 データ数を考えれば短い期間ではそれほど多くない量で分析することになるので、データの扱い方を工夫しながら分析しなければ信用度が低くなってしまいます。
 とは言え、長い期間であればあるほど今の傾向とは違う結果を出してしまう可能性が間違いなく高くなりますので、バランスの良い期間となると「5年~9年間」の間隔が現実的になると思います。
というわけで、今回お話した通りに「過去5年間」でまず分析してみることをおススメします!!

 以上、今回の記事になりました!

補足:過去30年データの活用法「移動平均で考えてみる」

 今回の記事では過去30年データは予想には不向きといった内容で話しを進めましたが、あくまでこれは過去30年のデータをまるごと単純に統計分析した場合であって「30年前のデータに意味はない」というわけではないです。活用の仕方によっては30年前のデータであってもちゃんと意味のあるものにできます。補足説明として今回は「移動平均による分析」を紹介します。

移動平均とは?

 移動平均とは連続するデータをずらしながら一定期間ごとに平均値を出して系列にしたものです。
 例えば1月の気温を3日間移動平均で計算していくとなると「1/1・1/2・1/3の平均気温」、「1/2・1/3・1/4の平均気温」、「1/3・1/4・1/5の平均気温」…、という感じで平均を出していくということです。

移動平均を活用する例(図3)

 この方法は「時間経過による変化」が分析しやすいので外貨取引や株式投資などでも活用されており分析としては非常にメジャーです。
 特に長い期間であればあるほど時間経過による変化が分かりやすくなるので、過去30年データには向いている手法です。さらに、調べていけば逆に長期間で変化していない要素を見出すこともできるので単純な統計では知ることができない傾向が分かるかもしれません。

具体的な活用方法

 では具体的にどうやって分析すればいいのか?
 先ほど上述した気温の移動平均と同じように調べればいいのです。つまり例えば以下のような形です。

2009~2023年の15年間の場合(※30年間でも基本は同じ)(図4)

 本記事でも推奨した「5年間隔」を前提としてそれぞれの期間の統計データを出し、推移の傾向を分析します。上の図は15年間で分析した場合なので11期間分の推移を見ることができます。(※30年間の場合は26期間分の推移)
 このような手法を取れば長期間データを活用して過去から変化した傾向、または過去からあまり変わっていない傾向を調べることができます。
 ただ、この手法は多くの期間の分析をしなければならないやり方なので時間と手間が掛かるのが難点です。より詳細に厳密に分析をしたいという方に向いた方法ですので、「ある程度の傾向が知れればいい!」という方は「過去5年分析」で十分だと思います。

以上、補足のお話でした!