Mozart Plays
Dragons

スタイルを学習する人工知能

2025年のドラゴンズは、9月に入ってもAクラス争いに留まり、最終的に4位でシーズンを終えた。ベテランと若手、生え抜きと移籍組が補い合い、久しく感じなかった、いつでも逆転しそうな雰囲気があった。主催試合の観客数も最多となる252万832人(1試合平均3万5012人)を記録した。

試合経過の可聴化も3年目。井上一樹監督は現役時代、ピンク色のリストバンドを使い、「ピンキー」と呼ばれていた。だから、今季のドラゴンズファンの心に流れている音楽は断然、モーツアルトである。

音符化のアルゴリズムは同じだが、音階はハ長調。もうブルーノートではない。8月7日の阪神戦は、ドラフト1位のルーキー・金丸夢斗投手が10回目の登板でプロ初勝利をあげた試合だった。

モーツアルトにはフランスの民謡「きらきら星」を見事にアレンジした変奏曲がある。

音楽のスタイルを学習した人工知能に、この曲を聞かせて阪神戦を演奏させると以下のようになった。

模倣しようとしていることは分かる。だが、金丸投手に相応しい、才能のきらめきは全く感じられない。我々に「モーツアルトのようだ」と思わせる独自の作風(スタイル)とは何だろうか?

人工知能にとってのスタイル

人工知能はスタイルをどのように学習しているのだろうか。

深層学習(ディープラーニング)と呼ばれる種類の人工知能では、神経細胞を模倣した回路がいくつもの層(ニューラルネット)を作り、入力データを逐次処理して結果を出力する。

回路は処理方法について最初は何も知らないが、学習用データ(上の例では手描き数字)の正解率が上がるようにひたすら試行錯誤する。AI研究者を魅了しているのは、十分に高い正解率が達成されると、不思議なことに、学習用データとしては与えられていない新たなデータに対しても正解を出すようになるからだ。丸暗記ではなく理解しているかのように振る舞う。

SNSに猫の写真をアップロードすると猫の写真ばかり表示されるのは、物体の識別を学習した人工知能のお節介だ。写っている人に自動でピントを合わせるデジタルカメラは、人の顔がどこにあるかを学習した人工知能が近視や老眼のカメラマンを助けている。

スタイルを学習する深層学習では、入力に対する判断(上の例では猫や人の顔の位置)ではなく、入力そのものを正解とする。それだけなら学習は簡単だ。入力をそのまま出力すればよい。

ところが、ニューラルネットの中間部分が絞られていると話は変わってくる。入力データの情報量がそのままでは通過できないため、狭い部分を通過できるまで情報を要約し、その後に入力データを復元しなければならない。オート(自己)エンコーダーと呼ばれている。

大量のデータの要約・復元作業を通じて、人工知能は各データを特徴づける情報(特徴量)と全てのデータに共通する情報を識別し、特徴量だけを狭い部分に通し、暗記した共通情報を後半部分で補って、復元しようとする。この復元のための共通情報が人工知能にとっての「スタイル」だ。

例えば、ゴッホの絵のスタイルを学習した人工知能は、どんな画像を入力しても、ゴッホの絵の共通情報を反映した画像を再現しようとする。

バンテリンドームの写真
ゴッホのスタイルを適用した画像

入力データの種類は画像に限られない。人の声を学習した人工知能は、音の実質的な情報と声音(こわね)を正確に識別し、声音だけを他人に置き換えることができる。

声音を変換するボイスチェンジャーは、深層学習のスタイル学習と非常に相性が良く、実社会でも有名声優の声そのものが盗用されたり、上司の声を使って会計係に偽の送金依頼をする事件が起きるほど、人の耳にとって自然な変換を達成している。

試合経過をモーツアルト風に演奏した人工知能も、基本的には同じ仕組みで作られている。復元部分のニューラルネットが、主旋律におおむねマッチした分散和音を弾かないではいられないかのようだ。

 

スタイルを学習する人工知能(スタイル移転と呼ばれる)には10年以上の歴史があるが、最近は(おそらく)別の手法も登場している。ChatGPTだ。

パラフレーズ機能

2022年以来注目されている大規模言語モデル(LLM)には、パラフレーズ(言い換え)機能がある。「やさしい日本語で」「中学生にも分かるように」と指示すると文章を書き換えてくれるものだ。そのLLM(今回はChatGPT)に、夏目漱石『坊ちゃん』の冒頭を「三島由紀夫風に書き換えて」と指示すると、以下のような出力が得られる。

夏目漱石『坊ちゃん』

親譲りの無鉄砲で子供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間程腰を抜かした事がある。なぜそんな無闇をしたと聞く人があるかもしれぬ。別段深い理由でもない。新築の二階から首を出していたら,同級生の一人が冗談に,いくら威張っても,そこから飛び降りる事は出来まい。弱虫や-い。と囃し立てたからである。

三島由紀夫風パラフレーズ

生まれついての向こう見ずは、私の血脈のなかに濃く沈んでいるらしい。幼い頃からその性分に翻弄され、しばしば損を背負いこんできた。小学校の折、校舎の新築の二階から身を躍らせ、一週間ばかり腰の自由を失ったことがある。なぜそんな無謀をしでかしたのかと問う声があるだろう。だがそこに崇高な理屈などはない。磨き上げられた窓枠に肘をかけて外を眺めていたとき、同級生の一人が嘲るように言ったのだ。「いくら大口を叩いたところで、おまえにそこから飛び降りられるはずがあるまい。腰抜けめ」その言葉は、夏の光に鋭く突き立つ剣のように、幼い私の胸を貫いた。次の瞬間、私はもう宙に身を投げていた。

抑えきれない強烈な自意識と、西洋的表現と漢語を織り交ぜた華麗な文体を再現していて、かえって、三島由紀夫が坊ちゃんの主人公なぞ興味を持つはずがないと違和感を感じるほどだ。

パラフレーズ機能がどのように実現されているかの詳細は公開されていない。ただ、従来のオートエンコーダーだけでは、我々が三島由紀夫に期待する類の「饒舌な機械」は実現できない。試合経過の変奏曲に失望した人は、気まぐれな音楽的饒舌こそがモーツアルトのスタイルだと感じているからだろう。

各試合のタイルをクリックすると、再生ボタンが表示されます。参照したモーツアルトのピアノソナタは試合ごとに異なります。

音符化のアルゴリズム 1イニングは1小節、1打者は1音で打席結果に応じて音程と長さを以下のように決める。

打席結果音程長さ
本塁打4音上1打点で2倍、2打点で3倍になり、4打点(満塁本塁打)は5倍
三塁打3音上
二塁打2音上
単打・野選1音上
ゴロ・フライ
エラー
1音下
三振
ダブルプレー
2音下
音程は守備時には上下が逆になる

音程はイニングごとにド(C4)に基準を戻す。また、収まりのいい20小節で終わるよう、最後のイニングをリフレインする。

ピアノ曲の生成には、チェコ出身の研究者Ondřej Cífka氏が作った音楽スタイル変換AIGroove2Grooveを使用した。

データ 試合経過は日本野球機構の公式データを使用した。音はTone.js、楽譜の描画はVexFlowを使用した。