翌朝になれば分かることに手間とコストをかけて馬鹿じゃないか。
まったくだ。
とはいえ、国政選挙の開票日ほど、新聞社やテレビ局に活気があふれる夜はない。ピーク時には1時間あたり十数万項目が集まる開票データを編集局はどう利用しているのか。
多くの報道機関は、選挙の投開票日の夜、最終結果の予測を組織内で共有し、取材・編集の参考にしている。その数値をもとに、政治部の記者は記事を書き始め、接戦になりそうな選挙区に応援記者を送り込む。テレビ局は中継の時間割を組み直す。
開票作業が速い自治体は、午後9時すぎには最終結果を発表する。そのデータを頼りに、残りの自治体の結果を推し量るのが残票予測だ。世論調査とも出口調査とも違い、集計過程に対する予測には教科書がない。
開票作業の終了時刻はおおむね、有権者が多い自治体ほど遅い。
小さな自治体ほど早く結了することの影響をどう見積もるか。残票予測の担当者は、ない知恵を絞る。
2019年参院選の比例代表で、自民党の得票率(得票数/有権者数)が前回(2016年)からどれだけ変化したかを市区町村別に計算すると、以下のような釣鐘状の分布を描く。2.0〜2.5ポイント減った自治体が最も多いが、増えた自治体も少なくない。
残票予測にとって、左右対称の分布ほどありがたいものはない。誤差が相殺されるからだ。また、分布の幅が狭いほどシャープな予測ができる。
有権者10万人以上の大きな自治体だけに絞っても分布に偏りがなく、自治体の規模は(自民党の)得票率の変化にほとんど影響がないことが分かる。
参院選は都道府県ごとに選挙区の政党対決構図が異なる。一例として福岡県の自治体だけに絞り込むと、変化の分布は左に偏り、分布もシャープになる。開票済み自治体が増えたら都道府県単位で予測を行った方がよさそうだ。
このようなデータの特徴を統計モデルに組み込み、2022年参院選の主要政党の最終得票数を予測すると、以下のようになる。横軸は開票が終了した市区町村数、灰色部分は90%の予測範囲を示す。
このモデルでは、都道府県単位で結了自治体が10を超えると予測根拠をその都道府県の分布に切り替えている。(端数の点検をしていると思われる)開票率が98%を超えた自治体も開票結了とみなしている。2019年参院選には出ていない参政党は、選挙区と同じ方法で予測している。
選挙区の予測はかなり難しい。候補者の顔ぶれが選挙ごとに変わり、前回のデータを参考にできないからだ。
2016年と2019年の参院選データからひねり出した統計モデルを使って、2022年参院選で全候補者の最終得票を予測すると以下のようになる。横軸は開票済み自治体数、縦軸は予測得票を表している。
予測が上手くできるかどうかは、候補の得票率という観点で見た自治体間の類似性が2022年も変わっていないという、願望にも似た前提に依拠している。この選挙でも同じ統計モデルが通用する保証は全くない。
残票予測はしばしば外れる。見通しが修正されると、一瞬だけ編集局に怒号が飛び、新しい予測に従って速やかに原稿が軌道修正される。注意深い読者でもない限り、紙面にその痕跡を見つけることは難しいだろう。
予測が当たった場合でも、手法が正しいとは限らない。予測の評価はそもそも難しい。初対面の人の利き腕を当てずっぽうで予測すると、「右利きだ」という予測は9割当たるが、「左利きだ」は1割しか当たらない。日本人の右利きの比率が9割弱という事実も予測に根拠がないことも同じだから、正解率には何の意味もない。
手法が改善されることもほとんどない。一夜だけの作業に専任担当者が設けられることはなく、電子投票が始まればこんな作業は必要なくなるさと、30年も前から選挙の度に言われ続けてきた。そして、有権者は統計モデルが想定するような単細胞の実験動物ではないのだと、外してなお安堵する側面も、選挙予測には確かにある。
【お断り】この記事は開票の早い段階で統計モデルによって最終得票を予測する試みです。あくまで数理上の予測であり、中日新聞が情勢調査や出口調査に基づいて当落を判定するものではありません。2020年に米紙ワシントンポストがネット速報で使用した統計モデルを参考にしましたが、選挙制度が異なるため、モデルは全く異なります。また、開票データ中にプログラムミスが見つかり、修正し再計算していたことを付記します。