Score-To-Song

ここ数日、はてなのトップページ近辺を「初音ミク」という名前がにぎわしています。てっきりデビューしたばかりのアイドルだと思っていたのですが、今日になってアイドルはアイドルでも、いわゆる電脳アイドルだと言うことを知りました。ただの電脳アイドルではありません。歌います。それも任意の歌を。

このPC用ソフトは音楽のメロディと歌詞を与えると、それをアイドルっぽく歌ってくれるそうで、熱狂したユーザーが次々に新しい遊びを考え付いているようです。
マイコン創世記を紐解いてもわかるように、人間は(とくに男は)それまで自由にならなかったものを自由に動かすことが出来るようになると、熱中するものです。…などということを論じる気はありません。ここは「Blackfin Digital Signal Processorグループ」ですよ。はっはっは。少々違う視点をば。
Text-To-Speech(TTS)という分野は一時期熱く期待されたのですが、結局他の信号処理ソフト同様、割と狭い市場にはまり込んでしまった感があります。一番成功しているのは多分カーナビの読み上げ機能でしょう。カーナビは膨大な地名情報を音声でドライバーに伝えなければなりません。しかしながら、地図のすべての地名をすべて録音しておくのはまず不可能です。そこで、任意の地名を与えるとそれを音声にしてくれるTTSソフトは重宝されています。それ以外となるとどうでしょうか。私は駅のアナウンスはあまりに発音が完璧なのでTTSであるのではないかと疑っています。しかし、ひょっとするとプロの技かもしれません。電話応答アナウンスの相当数がTTSであることは間違いありません。
TTSは、障害者向けの朗読支援など、多くの分野で期待されましたが、音声信号処理がいつも超えなければいけないハードルに直面しました。完全に自由な文章を自然に読み上げることが困難なのです。TTSの場合、人間が読み上げるときにつける抑揚をどうつけるかがポイントになります。抑揚が正しくつけられればいいのですが、間違ってつけると妙にぎごちない音声になります。人間はぎごちない発音に敏感で、若い人の平板な抑揚が耳に付くのと同様に、機械音声にたいして聴取者が構えてしまいます。そして、自然言語の抑揚の規則は、機械に格納するには手に余るという状況が長く続きました。
その結果、TTSは文脈が限られる特定分野でのみ使われるようになってきました。たとえばカーナビはその例です。カーナビでは「あと700mで」といった定型の文章と、「東京都足立区」と言った任意の単語を接続して自然な音声として発音しなければなりません。不自然な発音は運転手が運転に集中することを妨げ、事故の原因になりかねません。とはいえ、地名の数を考えればすべてに正しい抑揚をつけるのは困難な気がします。しかしながら、これは実は何とかなるのです。日本人が日本語の地名を発音するときには地名を発音するときのパターンがあります。抑揚パターンは、地名ではなく、統計的に音素の連なりに関連付けることが出来ます。たとえば、「おおさか」と言う地名は O-O-S-a-K-aという6つの音素の連なりとして解釈できます。日本語は珍しい言語で、単語から音素を簡単に取り出すことが出来ます。そうして、O-O-Sとかa-K-aといった部分音素列を取り出し、それが語頭にあるとき、語尾にあるとき*1、や「市」「町」「県」といった特別なキーワードとつながる場合、一般の音素とつながる場合などを統計的に解析することが出来ます。こうして得た統計的結果を元に、未知の地名を発音させると、結構違和感のない音声を作ることが出来ます。
この手法はうまく機能するのですが、問題は特定分野でしか通用しないと言うことです。地名の発音データベースは名前や天気には使えません。したがって、応用分野ごとにデータベースは作り直し。つまり、サンプルを取り直すことになります。
こうなると、データベースは商業的に成功するだろう分野向けにしか作られません。一つの成功例がカーナビでした。
8年ほど前に、この分野に面白い挑戦がありました。コナミの「ときめきメモリアル2」です。このゲームは前作と同様に女の子にアタックするゲームですが、女の子が感情をこめてプレイヤーの名前を呼ぶという機能が搭載されています。ハードウェアの制限で存分にその機能を使うことは出来なかったようですが、「名前を変更可能にすると、声優の声を当てられない」というこの手のゲームの欠点を克服する試みでした。
また、東芝はさらに踏み込んでバーチャル・アナウンサーを試みています。

この試みの背景には地域密着型天気予報の矛盾があります。天気予報は高精度化によって局所予報が可能になりましたが、そのかわりに短い時間でのアップデートが必要になりました。その結果早朝から深夜までお天気お姉さんをこき使わざるをえず、スタジオ運用費用とあわせて膨大なコストが必要になります。しかし、地域密着天気予報を必要とするのはCATVであり、予算がありません。機械をアナウンサー代わりに使えればと思うのは当然です。東芝のその後のビジネスについては寡聞にして知りません。私が加入しているCATVでは、天気予報を無言で流しています。
こうしてみると、「特定の市場のための、特定の文脈*2に特化したアプリ」という正常進化(というか正常適応)を行った初音ミクの成功は、なるほどとうなずけます*3Max MathewsがIBM 7094に世界で初めて歌を歌わせてから45年経ちました。その間の技術の進歩をしみじみと感じさせる話題です。

初音ミクにデイジー歌わせたら面白そう。むしろ意味のあることかも。

*1:正規文法で言えば^とか$とかと連なるとき

*2:歌詞は不特定分野の自由文章だが、メロディが与えられるために抑揚の問題をクリヤしやすいと思える

*3:YAMAHAが自分のブランドで出さなかったのにもうなずける