統計モデルの画面

選挙の夜の
はかない予測

開票残票をどう見積もるか

翌朝になれば分かることに手間とコストをかけて馬鹿じゃないか。

まったくだ。

とはいえ、国政選挙の開票日ほど、新聞社やテレビ局に活気があふれる夜はない。ピーク時には1時間あたり十数万項目が集まる開票データを編集局はどう利用しているのか。

多くの報道機関は、選挙の投開票日の夜、最終結果の予測を組織内で共有し、取材・編集の参考にしている。その数値をもとに、政治部の記者は記事を書き始め、接戦になりそうな選挙区に応援記者を送り込む。テレビ局は中継の時間割を組み直す。

開票作業が速い自治体は、午後9時すぎには最終結果を発表する。そのデータを参考に残りの自治体の結果を推し量るのが残票予測だ。世論調査とも出口調査とも違い、集計過程に対する予測には教科書がない。

開票作業の終了時刻はおおむね有権者が多い自治体ほど遅い。

小さな自治体ほど早く結了することの影響をどう見積もるか。残票予測の担当者は、ない知恵を絞る。

比例代表: 得票率の変化に注目

2019年参院選の比例代表で、市区町村別に自民党の得票率(得票数/有権者数)が前回選挙(2016年)からどれだけ変化したかを計算すると、以下のような釣鐘状の分布を描く。2.0〜2.5ポイント減った自治体が最も多いが、増えた自治体も少なくない。

残票予測にとって、左右対称の分布ほどありがたいものはない。誤差が相殺されるからだ。また、分布の幅が狭いほどシャープな予測ができる。

有権者10万人以上の大きな自治体だけに絞っても分布に偏りがなく、自治体の規模は得票率の変化にほとんど影響がないことが分かる。

参院選は都道府県ごとに政党の対決構図が異なる。一例として福岡県の自治体だけに絞り込むと、変化の分布は左に偏り、分布もシャープになる。開票が進んだら都道府県単位で予測を行った方がよさそうだ。

このようなデータの特徴を統計モデルに組み込み、主要政党の最終得票数を予測すると、以下のようになる。横軸は開票が終了した市区町村数、灰色部分はコンピューターシミュレーションの90%の予測範囲を示す。

このモデルでは、都道府県単位で結了自治体が10を超えると予測根拠をその都道府県の分布に切り替えている。自民党の予測得票は最初は安定しないが、結了自治体が全国で1000を超えると、ほとんど変わらなくなる。

選挙区:予測は困難

選挙区の予測はかなり難しい。候補者の顔ぶれが選挙ごとに変わるため、前回のデータを参考にできない。

2016年の参院選データからひねり出した統計モデルを使って、2019年の参院選で全候補者の最終得票を予測すると以下のようになる。横軸は開票済み自治体数、縦軸は予測得票を表している。

予測値が不安定な選挙区もあるが、幸いなことに当落判定に影響するほどではない。順位が変わることは稀なので、かなり正確な予測ではないかという印象を与えるかもしれない。しかし、答え合わせができるのは練習問題だけで、次の選挙でも同じモデルが通用するとは限らない。

使い捨ての統計モデル

残票予測はしばしば外れる。すう勢の見通しが修正されると、一瞬だけ編集局に怒号が飛び、新しい予測に従って速やかに原稿が軌道修正される。注意深い読者でもない限り、その痕跡を見つけることは難しいだろう。

予測が当たった場合でも、手法が正しいとは限らない。予測の評価はそもそも難しい。初対面の人の利き腕を当てずっぽうで予測すると、「右利きだ」という予測は9割当たるが、「左利きだ」は1割しか当たらない。日本人の右利きの比率が9割弱という事実も予測に根拠がないことも同じだから、正解率には何の意味もない。半世紀前の政治学の雑誌にも研究者の「新聞より正確に予測した話」は見つかるが、それも55年体制という「右利き」の設問だったかもしれない。残票予測も、すべての選挙予測と同じように、当たった話だけが語り継がれ、外した話は忘れ去られる。

手法が改善されることもほとんどない。一夜だけの作業に専任担当者が設けられることはなく、記者は人事異動で変わっていく。選挙のたびに、電子投票が始まればこんな作業は必要なくなるのだと、30年前から言われ続けてきた。そして、なにより、翌朝になれば結果は分かるのだから。

データについて 7月10日の参院選開票日の夜、当日のデータを使い、リアルタイムで上記予測値を更新する予定です。