コンピュータが人間らしくしゃべることはもはや未来の技術ではありません。簡単に他人の声になりすます音声変換技術ができ、それを検知するセキュリティ技術さえ出てきています。高道慎之介先生はさらにその上を行き、なりすまし音声の検出技術さえも騙せるような音声合成技術を開発しました。人間のほんとうの生の「声」ってなんでしょう。そこに鋭く迫ります。
騙し騙され音声合成
人間が喋っているとしか思えない生々しい音声合成
ボーカロイドやスマートスピーカーなどが次々と実用化され、音声の情報処理は今、とても旬な学問分野です。
人間がしゃべるのと同じようにしゃべる機械の実現をめざした「音声合成」技術が著しい発展をしました。さらにある人の声を別の人の声に変換する「音声変換」技術も発展しました。音声変換とは、ざっくりいうと「なりすましボイスチェンジャー」。他人の声そっくりなりすます音声技術のことです。
一方、声のなりすましが悪用されないために、なりすまし音声が、本物の人間の声か、合成音なのかを検出するセキュリティ技術もできてきています。音声合成と変換は、悪用とさらなる技術革新のいたちごっこのようです。
言い換えると音声情報処理の発展は、合成と変換が車の両輪のようにして研究が進められ、コンピュータの音声と人の声とが見分けがつきにくいようなレベルまで発展していると言えます。
しかし私はこれらを越えてさらに上のレベルに行く技術の実現をめざしました。なりすまし検出器が「これは確かに人間の声だ」と勘違いするような音声合成システムを開発したのです。
私のコンピュータを使った音声合成技術は、これまでの音声合成と変換技術を越えるものとして、人間が喋っているとしか思えない非常に生々しい音声を実現するに至りました。
「君のことが好きです!」とコンピュータに喋らせてみた
さてここからが本番、新しい音声合成研究の真髄部分です。どうすればそんなに人間らしい生々しい声を機械に作り出せたのか、私はそのメカニズムを明らかにしました。
これまでの合成音は、いくら人間に近い声を実現しても、どこか無機質でした。これを乗り越えるには、人間の声の出し方の特性を把握する必要があります。人間は2回同じように話しません。そういうわけで私は、同じことを2回話すときの声の特性の研究を続けています。
人はみな違う声を持っていて、各々の身体を使って空気中に音声を発しています。「おなかすいた!」と発するときには、必ず身体のノイズが入ってしまい、同じセリフを発したつもりでも毎回声の質は違います。
しかしコンピュータはそうはなっていません。コンピュータに愛の告白をさせます。「君のことが好きです。つきあってもらえませんか」と同じセリフを2回喋らせてみます。人間なら相手の反応を伺ってドキドキしたり言い間違ったりするけれど、機械は2回ともまったく同じ調子です。
結局のところ、これまでのコンピュータの音声合成とはいくら人間の声に近づいたといってもそういうものしか作れなかったのです。
私が新しく提案したいのは、「一期一会音声合成」というものです。身体的にも感情的にも揺れ動き毎回違う声を発する人間の声の特徴をモデル化し、それをもとに人間の発するセリフや声のノイズをコンピュータに学習させたのです。ディープラーニングという人工知能技術を用いています。いわば、機械を人間の脳の働きに限りなく近づけることによって、コンピュータも人と同様に毎回異なる声を出せるようになったというわけです。
音声言語の自動翻訳(音響サイエンスシリーズ18)
中村哲:編著 Sakriani Sakti、Graham Neubig、戸田智基、高道慎之介:共著(コロナ社)
この本では、音声合成変換などの音声処理に加えて、音声に含まれる情報(セリフ、感情、話者など)の情報をどのように計算機で処理するかを説明しています。また、それを使ってどのように音声翻訳を実現するかを説明しています。