【競馬AI-3】競馬データの中身を理解する

前回の記事では mykeibadb を使って、JV DataをMySQLに取り込みました。
ここまでくると「どのテーブルをどう使えば競馬AIを作れるのか？」が次のテーマになります。

今回は、JV Dataの構造や学習に役立つテーブル・カラムを、実際に使っている視点から整理してみます。
これを押さえておくと、データ分析やモデルづくりの効率がぐっと上がります。

まずはJV Dataって何者？

JV Data（JRA-VAN Data Lab.）は、中央競馬のレースや馬の情報をぎっしり詰めこんだデータセットです。
レース日や出走馬、オッズ、払戻金…ありとあらゆる情報が詰まっていて、まさにAI開発の宝庫。

ただしそのままでは扱えません。
JV-Link という仕組みでデータを取得し、テーブルに落とし込んでから初めて使える形になります。

ここがちょっとしたハードルですが、一度MySQLに入れてしまえば自由自在。
過去レースの傾向分析や、機械学習用データづくりのベースとして活用できます。

JV-Data仕様書をダウンロードし、仕様書とデータベースを比較して見ていくと理解が深まっていきます。

mykeibadbを動かすと、70以上のテーブルが自動で作成されます。
初めて見たときは圧倒されますが、AIで主役になるのは一部。

大きく分けると次の3グループです。

学習用に頻繁に触るのは、出走馬とレース情報が中心。
マスタ系は、コードを分かりやすい形に直すときに欠かせません。

ここでは、実際にAIの学習データをつくるときによく使うテーブルをまとめます。

レースの基本情報が詰まっています。

モデルにコースや天候の影響を学ばせるなら、まずこのテーブル。

一頭ごとの成績や状態をまとめた中心テーブル。

レース結果を予測するならここを外す理由はありません。

オッズや払戻金を扱うテーブル群。
単勝、複勝、馬連などが細かく分かれています。

「レース直前のオッズで学習」「確定オッズだけを使う」など目的に応じて選びます。

競馬場や着差などのコードを日本語に変換するためのテーブルです。
モデル入力ではワンホット化やカテゴリ変数にするのがおすすめ。

実際にAI用の学習データを作る流れをシンプルにまとめるとこんな感じです。

この一連の加工が、的中率や回収率を上げる肝になります。

今回は JV Dataの仕様と主要テーブルのポイント をざっと整理しました。

次回は、これらのテーブルを実際にSQLで結合して、学習用のデータセットをつくる具体的な手順を紹介します。
競馬AIに挑戦したい方は、今回の記事を参考にデータの中身をのぞいてみてください。