中日スポーツ:当てることと勝つことの間競艇の統計的モデリング

競艇は300メートル離れたブイ（ターンマーク）を左回りに３周するボートレースだ。スタートラインを時速80キロで通過した選手は、４秒後には第一ターンマークを旋回する行動に移らなければならない。レースを初めて見る人の目にも、一番内側を走る１枠（１コース）が有利だと分かる。

選手はスタート前の駆け引き（待機行動）で内側のコースを取ろうとするが、この経路も左回りなので１枠が主導権を握る。１枠の99％が一番内側の進入コースを取る。

2013年から22年末までの10年間、49万レースのデータによると、１枠の52.1％が１着になっている（進入順で内側を譲った場合を含む）。

ただし、この結果がすべて１枠の効果だと簡単には言えない。

選手は、モーターボート競走会によって主として平均着順点（競走会では勝率と呼ぶ）に基づいてA1（上位20％）、A2（20%）、B1（50％）、B2（10％）にランクづけされている。レースの主催者（自治体やその傘下団体）は、興行としての思惑からA1、A2の有力選手を１枠に優先配置している。

このような事情があるため、ジョギングが健康にいいのか、健康な人がジョギングするのかが分からないように、１枠が強いのか、強い選手が１枠なのかはデータを単純集計しただけでは分からない。選手と枠、どちらの影響が強いのかを統計的モデリング（ベイズモデリング）を使って分析してみよう。

選手の力を推計する

ここでは、レースの結果を決める「強さ」が以下の要素の合計で決まると想定する。

各選手が持つ属人的強さ、枠自体が持つ平均的強さ、選手それぞれの枠の得手不得手、モーターの性能差があるとして、それ以外の要素を運とみなす。要素を表す数値には（順位を決められさえすればよいのだから）単位も原点も必要ないが、ゼロ周辺にまとまるように緩い制約をつけることにする。

この統計モデルを使って、最近の２万レース（2022年11月22日から23年3月31日まで）のデータから数値を推定すると、各要素は以下のようになった。

選手の力　ボートレース界のスター・峰竜太選手の力を各ランクの平均と比べると、A1選手より25ポイント、B1選手より50ポイント程度上回っていることがわかる。

選手の力は競走会が発表する平均着順点とも概ね合致している。統計モデルは実力を捉えているとみていいだろう。

枠の力　１枠は２枠より70ポイント、２枠は３枠より40ポイント程度も有利であることがわかる。１枠と６枠の差は150ポイントもあり、選手個人の力の差よりもはるかに大きい。平均的には６枠のA1選手より１枠のB2選手の方が強いことになる。

モーターの力　選手はレース前日にボートとモーターを抽選で選び、試走や調整などを行う（いわゆる前検）。モーターに注目するファンは多いが、統計上の差はほとんどない。

運の大きさ　モデルが推定する運（勝負ムラ）の大きさ（標準偏差）は90程度。これは、10％の確率でプラスマイナス150（90×1.64）以上も変動することを意味し、選手の力や枠の影響をはるかに凌駕している。他のボートと接触したり、波に乗り上げたりして順位を落とすことが珍しくないボートレースの本質的な予測不能性を表している。

モデルを構成する要素をすべて足し合わせると、レース順位を決める総合力の推定値になる。例えば、23年3月31日ボートレース蒲郡最終レースの各枠の強さは以下のようになった。

枠の力では飛び抜けていた１枠は、選手の力と運の影響で相対的な優位にすぎなくなっている。サンプリングによれば、１枠が勝つ確率は57.8％、２枠は15.7％、３枠は11.6％だということになる。

あすのレースを予測する

統計モデルでデータを分析する利点の一つに、まだ存在しないデータもシミュレーションで推定できることがある。これまでのレース結果が生まれた事情があすのレースでも変わらないと想定すると、選手とモーターと枠の新しい組み合わせ（番組）も同じように計算できる。

23年3月31日までのデータを使い、4月2日のボートレース常滑最終レースを予測すると３連単の確率は以下のようになった。

統計モデルは、専任記者のようにプライドをかけた断言をしてはくれない。同じ番組で数百回もレースをすればこの程度の勝率になるだろうという冷めた推定だ。そのままでは観戦のガイドとして魅力的には感じられないだろう。

勝つための戦略

ボートレースでは、舟券売り上げの約25％が開催費用（賞金や賃金）、主催自治体と日本財団（旧船舶振興会）に分配され、配当に回されるのは75％に過ぎない。だから、主催者に対して勝つことは不可能だ。

だが、競う相手をボートレースファンに変更すれば、統計的に勝てる可能性がある。人気が集中してオッズ（払い戻し比）が実力以上に下がった舟券を避け、他のファンが気づいていない、オッズが相対的に高いものだけを選ぶことができるなら、当てることと勝つことの境界を渡ることができるかもしれない。

以下の表は、4月1日から15日までの全国2145レースの各舟券を予想確率別に分け、実際の結果と比較したものだ。

モデルは舟券の確率を正確に予測しているといっていいだろう。この確率の逆数として計算される想定オッズが現実のオッズよりも低い場合、リターンがリスクを上回る割安舟券となる。

分析対象の2145レースに限れば、確率が10％以上の割安舟券だけを買うという戦略をとると回収率は93-99％まで上昇する。ほとんどの人を出し抜くことができるのだ。

しかし、高配当を狙って10％以下にまで対象を広げると回収率は80％前後に下がってしまう。それが、万舟まんしゅう（配当が１万円を超える舟券）を狙うベテランファンが統計モデルよりも正確に確率を見極めていて、割安舟券が本当は割安ではないためなのか、あるいは、対象を広げれば広げるほど全体の払い戻し比率75％に近づいていく確率の大原則から逃れられないためなのかは分からない。

また、落ち穂拾いのような戦略が有効だとしても、多くの人にとっては「なぜギャンブルに熱中するのか」という本質からピントを外しているように思われるだろう。ギャンブルは経済行為ではない。統計的に考えることは一攫千金の機会を自ら放棄することだ。

人々は眼前で繰り広げられる不確かな成り行きに「物語」を見い出し、一喜一憂する。それは我々の人生の選択によく似ている。競艇には「衰える王者のもがき」や「覚醒した若者の台頭」の物語があるが、ラスベガスには「スペードの復活劇」や「サイコロのシンデレラストーリー」はない。だから、データを振りかざして勝つことを目指すよりも、自分の直感を信じて当てることを優先するファンの方が正しいのかもしれない。

ベイズモデリング　データを生み出す数学的な構造を探る統計的モデリングで、近年もてはやされているのがベイズモデリングだ。

中学・高校で習う確率・統計では、例えば『どの目が出ることも同様に確からしいサイコロを２個振った時、１のゾロ目が出る確率はどれくらいか』という問題を解く。優等生なら、１が出る確率は1/6、それが同時に起きる確率は1/36だと答えるだろう。

だが、現実の問題はほとんどの場合、話が逆だ。サイコロで１が出る確率が本当に1/6かどうかは神のみぞ知る前提で、『同様に確からしい』という言葉も教科書以外で見かけることはない。『サイコロを36回振ったら、１のゾロ目が１回出た。このサイコロで１が出る確率はどれくらいか』という問題に対して、従来の統計学はいささか頼りなかった。（開幕５連勝中のドラゴンズの今季予想勝率が100％だという人は、熱烈なドラファンには違いないが、常識的ではない。しかし、５戦５勝というデータから100％以外の数字を導くのは簡単ではない）

ベイズモデリングは、コンピューターの力を借りて、前提となる確率を想定しうる範囲で変化させながら、データが出る確率を計算する。１が出る確率を10％と想定すると36回で１回ゾロ目が出る確率は25.3％、11％だったら28.4％、11.5％だったら...というように『教科書の問題』を大量に解く。最後に、その確率に比例する確率で元の想定値を無作為抽出する。当然、値はバラバラだ。神ならぬ人間が分かることはここまでだと諦める。

レースの順位に表れた選手の「実力値」をベイズモデリングで推定すると、意外な結果に惑わされるだろう。

例えば、３人の選手が２回レースを行い、以下のような結果だったとする。

この場合に計算される選手の推計値の分布は、以下のようになる。

選手の序列が明白に表れているように見える結果でも、ベイズモデリングでは３人の実力が重なっている部分がかなりある。仮に実力が全く同じでランダムに順位を決めた場合でも、同じ結果が1/36の確率で生じることを忘れていないのだ。

３回目のレースが行われ、１着が入れ替わったとすると、さらに意外な結論になる。

選手の推計値の分布は以下のようになり、もはや上位２人に差を認めない。

３回レースをすれば、実力が同じでもどちらかが２勝する。老練な博徒のように、統計モデルは目の前の結果に一喜一憂しない。

ベイズモデリングは新しいアイデアではないが、可能性をしらみ潰しに計算する手法には高速なコンピューターが不可欠で、これまであまり普及していなかった。本稿でも２万レースを分析するのに最新のパソコンを使って１日以上かかっている。