音声認識・音声合成を利用し、人間のように話しかける秘書エージェント、音声翻訳システム、VR、触覚インタフェースなどが次々と研究開発され、実用化されつつあります。私は音声言語処理などを専門に、特に人間のように話すことのできる新しい音声合成方式の研究開発を中心に行ってきました。統計的機械学習、さらには深層学習などのAI技術を基盤とした手法を用いています。
ドラえもんも夢じゃない
これまでに開発した音声合成方式は、各種携帯電話・スマートフォン、Android OS、名古屋工業大学学内ベンチャー企業のテクノスピーチで開発した音声創作ソフトウェアCeVIO(チェビオ)、通信カラオケで知らない曲を歌ってくれるボーカルアシストなどで、広く利用されています。
人と機械の双方向の自然なコミュニケーションのためには、人間の知覚特性をよりよく理解し、その特性を活かしたインタフェースを実現することが求められています。このような研究開発が進展することにより、ゆくゆくは友達のように自由におしゃべりできるロボットが実現されることになるでしょう。ドラえもんのような!
一般的な傾向は?
- ●主な業種は→電気、通信、自動車
- ●主な職種は→技術者、研究開発者、学術研究者
- ●業務の特徴は→インターネットを中心とした情報通信産業の発達とともにテキスト、音声、画像、映像等の取り扱う場面が増えており、機械学習、さらには深層学習をベースにした自然言語処理、音声処理、画像処理等の技術者の活躍の場が広がっています。
分野はどう活かされる?
Googleで新しい音声合成技術の開発に従事、国立研究所で音声翻訳システムの開発に従事、楽器メーカーで歌声合成ソフトウェアの開発に従事、自動車関連メーカーでカーナビの開発に従事しています。
現在の音声合成は、いったい、どこまで進み、どんなふうに利用されているのでしょうか。これから、どのような応用がなされていく可能性があるのでしょうか。その応用は、人類の未だ見ない将来をどのように変えていくのでしょうか。みなさんご一緒に、「音声合成」という世界への旅に出発しましょう。
名古屋工業大学工学部情報工学科は、情報化社会を担う技術者として必要な全ての要素を網羅する、3つの教育プログラムから構成されています。これらの中のメディア系プログラムでは、人の知覚や認知、感性や感覚に基づく、人に優しいメディア情報システムを実現するため、画像、映像、音声、音楽、文章などの様々なメディア情報を処理する技術、感覚や感性を解析・生成・評価するための理論とコンピュータによる実現法、これらの技術の評価法など基礎的な知識・技術を学びます。
また、学部4年間と大学院博士前期課程2年間を接続した6年一貫の「創造工学教育課程」を開設しています。中でも情報・社会コースのメディア情報分野では、音声認識・音声合成、画像認識・画像理解、拡張現実感等をキーワードとするメディア情報分野を主軸とし、知能情報やネットワーク、電気電子を同時に学んでいます。