中日新聞写真部

審判を審判する

フィギュアの匿名審判制度廃止

国際スケート連盟(ISU)は2017年のシーズンから審判の匿名制を廃止し、名前を公開するようになった。採点競技には、成績が振るわなかった選手のファンの、審判に対する(じゅ)()がつきものだが、ウインタースポーツの華であるフィギュアスケートには特に注目が集まる。審判にバイアスはないのか、あるとすればどのような傾向があるのだろうか。今季のデータを使って検証してみよう。

2017/12/7 中日新聞

お国びいきはある

グランプリ(GP)シリーズの演技審判は9人。ショートプログラム(SP)で7件、フリースケーティング(FS)で13件(女子は12件)ある演技要素それぞれについて-3から3までの出来栄え点(GOE)と、全体のつながりを評価する構成点(プログラム・コンポーネンツ)を判定する。

ここでは、今季のGPシリーズ7回のGOEについて、各審判が「同じ演技を見た他の8人の評価の平均値からどれだけ離れているか」を計算し、その審判の採点傾向とみなすことにする。例えば、8人のGOEが1、0、−1、0、0、1、−1、0(=平均0)だった時に1を出せば、平均より1点甘いということになる。

以下の表は、選手の国別に、それ以外の国の選手との採点傾向の差(バイアス)をまとめたものだ。プラスは赤、マイナスは青で色分けしている。濃い色は、統計的なばらつきを考慮に入れても「差がゼロとはいえない」ことを示している。北米、アジア、欧州、中央アジアの順に並べた。

最初に目につくのは、アメリカの審判のあけすけな身びいきと、ロシア選手に対する辛い評価だ。

一方、ロシアの審判は身びいきこそすれ、アメリカの選手に対する冷遇は強くはない。個人差は顕著で、半数近い審判がバイアスのほとんどない判定をしていることが分かる。

GPシリーズは、各国のトップ選手だけが集まる大会だ。どの国にも「その国にとっての浅田真央」がいる。ジュニア時代から成長を見続けてきた選手の良いところを見つけてしまう「同胞バイアス」があるのは当然かもしれない。

同胞バイアスの影響力

審判が自分と同じ国の選手を評価した場合に限り、データを細かく見てみよう。

次の表は、各審判について、①同じ国の選手を評価した場合の採点傾向、②それ以外の国の選手を評価した場合の傾向、③9人の中で単独で最高評価したため、採点からは外された割合、④単独で最低評価したため、採点から外された割合、⑤評価の機会の回数をまとめたものだ。(メニューで並べ替えが可能)

同国選手の評価で比べた場合、韓国のTae Ri Lee氏の0.92が最大だ。しかし、単独最高評価は4.3%で、大甘な評価を連発しているわけではない。一方、単独最高評価が13.3%と飛び抜けている日本の吉沢昭氏(Akira YOSHIZAWA)は、国別のバイアスがほぼない。

演技審判の採点では、9人のうち最高と最低を除いた7人しか計算されない。そのため、Tae Ri Lee氏のような強いバイアスを持つ審判が一人いるだけでは、結果はそれほど変わらない。この程度のバイアスは、採点制度があらかじめ想定しているものといえるだろう。

国か個人か、データの限界

GPシリーズに複数の選手を送り込むことができる国は、アメリカやロシア、日本などに限られている。選手を一人しか出していない国のデータは、それが「お国びいき」なのか「個人びいき」なのか、区別ができない。データが少なすぎるのだ。かといって、各国のオープン大会などの比較的小規模の競技会のデータを加えると、審判が周辺国に限られているため、世界との相対的な関係が分かりにくくなってしまう。データ分析の限界だろう。

審判のための透明性

採点競技であるフィギュアスケートは、新体操や水泳のシンクロなどと同様、採点の客観性・公平性が競技の魅力に強く結びついている。ISUは、2002年のソルトレイク五輪でフランスとロシアの採点裏取引が明るみに出て以降、公正な採点方式をめぐって試行錯誤を続けてきた。

審判の匿名性は、裏取引が守られたかどうかを確認できないようにすることで不正を防止するために導入されたものだ。しかし、その後の取り組みで、採点基準の客観化・統一が進み、ノーミスの選手よりも転倒した選手の方が点がいいというような事態は起こり得なくなっている。審判情報の公開は、審判のレベルの向上を促し、フィギュアスケートの競技性を高める効果があるだろう。

分析に用いたデータは、2017年グランプリシリーズ7回(ファイナルを含む)の男女個人SP、FS(延べ294人)の要素技術点の評価を、ISUが大会後に発表する採点資料から集計した。ジャンプで転倒した場合など、9人の審判全員が-3と評価した場合のデータはあらかじめ除いた。件数は24750件。

国別のバイアスの判定には独立二群の平均値の差の検定(ウェルチのt検定)を使い、同国選手とそれ以外の選手との、評価の平均値に差があるといえるかどうかを、99%の有意水準でテストした。