
見る・聞く・触るといった人間の知覚活動をコンピュータにさせる技術を研究する知覚情報処理分野。その中でも「見る分野」ではコンピュータの画像・動画認識の精度を高める技術を研究開発しています。飯塚先生は、コンピュータに学習させる方法を用いて白黒写真を自動でカラー化したり、画像を自動で補正したりできる画像処理・編集技術を開発しています。
コンピュータが学習してどんどん賢くなり、白黒写真を自動でカラー写真に!
現在、画像や映像を思い通りに編集する技術はコンテンツ制作に不可欠であり、映画やテレビ、広告などありとあらゆる場面で使われています。しかし、白黒写真のカラー化などの複雑な画像処理は、コンピュータではなく人間の手作業に頼っているのが現状です。例えば、私たち人間は白黒写真を見ると、元の色が何であったか比較的簡単に想像できると思います。しかしこれをコンピュータにやらせようとすると、まずコンピュータが画像のどこに何があるかを認識し、さらにそれが何色であるかを推測するための、複雑な解析方法を考えなければなりません。これはとても難しい問題で、これまでなかなかうまくいきませんでした。そのため、結局このような処理は、人間の手作業に頼らざるを得ず、大変な手間とお金がかかっていました。
これに対して、私は機械学習の中の深層学習(ディープラーニング)を応用することで、人間の持つ高度な認識能力を必要とする画像処理を、コンピュータが自動で行えるようにしました。具体的には、白黒写真の自動カラー化など、目的の画像処理を適切に行ってくれる「ニューラルネットワーク」を構築します。ニューラルネットワークとは、人間の脳内にある神経細胞(ニューロン)の情報伝達の仕組みをモデルに作られた数理モデルです。ニューラルネットワークには入力層、中間層、出力層の三種類の層があり、入力層で入力された情報について中間層であれこれ考え、出力層で結果として出すイメージです。
例えば、何種類もの犬と猫の画像を分類したいとき、これまでは犬や猫の違いがわかる「特徴」を人間があらかじめ決め、それに従ってコンピュータが判別をしていましたが、実際はそのような明確な線引きができる特徴を決めることはとても難しいものです。これに対し、私たち人間はこれまでの様々な経験に基づき、犬か猫かを自然に見分けることができます。コンピュータにも同じことをさせるために、深層学習ではたくさんの画像をニューラルネットワークに見せて学習させます。それによって、コンピュータは犬と猫を見分けるためにはどこに目をつけたらいいのかを自分で学習し、犬猫の画像から適切に「特徴量を抽出」することができるニューラルネットワークが構築されます。
白黒写真のカラー化でも同じことです。ニューラルネットワークにたくさんの白黒写真とカラー写真のペアを見せ、こういう白黒写真がきたらこの色づけが正解、というパターンを繰り返し学習させます。そうすることで、「目のつけどころ」をコンピュータ自身が学んでいき、正しく色づけできる確率もどんどん上がっていきます。私たちが考案したニューラルネットワークでは、画像の全体像とそこに映っている細部の、両方の情報を統合して、各部分に最も適した色を推測することができます。そのため、部分的な情報からでは色を判断できない場合も、画像全体の情報を使うことで精度よくカラー化をしてくれるようになりました。

この技術を応用することで、それまでに学習させた無数の画像のパターンを元にして、一部が欠けている画像を自動で補完したり、誤って写りこんだりしてしまった風景や人物を違和感なく削除・加工するといったことをコンピュータが自動で行えるようになりました。

このように、深層学習を応用することで、これまで人間にしかできなかった高度な認識・判断能力を利用した画像処理を実現することができます。今後もこの研究を進めていくことで、新たなコンテンツ制作の枠組みを作っていきたいと考えています。
