◆牛久さんの研究内容を教えてください。
人が目で見たものを言葉で表現したり、言葉で聞いたものを脳裏や絵で描いたりできるように、コンピュータも視覚のデータと自然な言葉とを行き来できるようになりました。私は、コンピュータに画像を入力するとキャプションが出力されたり、キャプションを入力すると画像が出力されたり、さらには画像と質問文(例えば「人は何人写ってますか?」など)を入力するとその回答が出力されたりといった「ビジョン&ランゲージ」と呼ばれる分野を研究しています。
これまでは画像認識ならコンピュータビジョンと呼ばれる分野の、言語理解や生成なら自然言語処理と呼ばれる分野に独自の技術というものが膨大にありました。どちらの分野の専門家にとっても、視覚と言葉を行き来するにはもう片方の分野の難しい技術を理解する必要があり、とてもハードルが高かったのです。ところが最近、深層学習と呼ばれる共通の技術が台頭し、画像や言語それぞれでバラバラだった技術よりも高い精度で画像や言語を理解し、生み出せるようになりました。どちらの分野の研究者にとっても、この深層学習と呼ばれる共通の技術を理解すれば視覚と言語を行き来できるようになったのです。
◆いままで、どのように研究を進めてきましたか。
私は東京大学原田研究室で博士号を取得した際のテーマが、計算機が人間に代わって画像を自然な言葉によるキャプションで説明する「画像キャプション生成」でした。当時はまだ深層学習と呼ばれる技術はこれから台頭するぞという状況で、苦労してコンピュータビジョンと自然言語処理の両方を勉強し、研究しました。
少し前までは東京大学の教員として、そして今は企業研究所の研究グループを主宰する身分として、視覚と言語を行き来するビジョン&ランゲージ分野に取り組んでいます。このような複数の分野にまたがる新しい分野を研究する際には、「もともと画像に興味があったけど言語にも興味が出てきた」というようにいずれかの分野にまず興味を持って、その後他の分野も含めた学際領域に挑む人も多いです。ですので、色々な流れでこの分野に興味を持つに至った人たちと一緒に、人の視覚と言葉を行き来できる人工知能技術の開発を目指しています。
◆研究テーマをどのように見つけたのかを教えてください。
学部4年生になった際に配属された研究室ではまず、先輩の研究に触れていました。これは与えられた画像に写っているものの「単語名」を答える研究でした。現在の機械学習技術でもそうなのですが、この研究では通常、人が画像を目視して正解の単語を付けたものを数千枚用意して、計算機に学習させます。このような正解付き画像を大量に(最近だと数千万枚というものもあります!)用意するのは大変です。そこで、通常のwebページから画像と周辺の言葉を収集して、自動で賢くなる人工知能を検討しました。これが私の卒業論文で、画像と周辺の文を用いて画像の「単語名」を答える研究でした。ここから「単語」の関係性も含めて説明文としての「キャプション」を出力する修士論文と博士論文に繋がります。
振り返ると、まずは先輩の研究に触れたように、学ぶべきものが多い項目については実際に取り組んだ人が近くにいるテーマを選択したのが奏効したと思います。何でも直接教わるわけではないですが、わからないことが出た際に聞けたのはありがたかったです。そしてそのテーマを通じて研究のお作法、論文の読み方などが何となくわかったことで、当時の研究室にはノウハウのある人がいなかった自然言語処理分野も独自に学べた結果、コンピュータビジョンと自然言語処理の融合である修士論文や博士論文に繋げられたのだと思います。
◆この分野に関心を持った高校生がより深く知るための具体的なアドバイスをお願いします。
現在は、私がこの分野を始めたときとは様変わりしています。ネットの情報だけで学び、実践することができると思います。
学びの機会としては、例えば画像の認識技術について知りたいと思えば、そうした技術を試したという記事がQiitaなどの技術記事投稿サイトが膨大に出てきます。また、英語が怖くなければCourseraなど主に海外の大学講義を聴けるサイトがあるので、それらを視聴するのもとても良いと思います。この分野のみならず、コンピュータ科学の研究者は息を吸う様に英語の情報にあたるので、慣れは大切です。(慣れであって、英語をマスターする必要があるわけではないという点は触れておいたほうが良いでしょう。)
実践の機会としても、ネットで機械学習の腕を競うサイトがいくつかあります。いちばん有名なのがkaggleで、一般の企業が自社のデータを持ち寄り、「これを入力としてこれを出力できるような機械学習技術を開発してください」というタスクを設定しています。期限が決まっていて、その中で最も優れた精度を出せたいくつかのチームに当該企業から賞金が出る場合もあります。
もちろん私のオフィスに直接遊びに来てもらうのも歓迎です。私の実名で検索すれば個人webサイト yoshitakaushiku.net が見つかると思います。当該サイトでメールアドレスや各種SNS情報が出てくると思いますので、お好きな手段で連絡をください。
◆高校時代は、何に熱中していたかを教えてください。
高校時代からロボットを作っていました。物理研究部という(自分も含めて)オタクな人々が集まる部にいて、プログラミングはこの中で自習していました。
とにかくやりたいことをやれば良いと思います。そういう意味では私は小学生のときから日本テレビ系列の高校生クイズが好きで出たいと思っていたので、クイズ研究会のあるような高校ではなかったですが志を同じくした友人と3年間出続けました。全国優勝できたのは完全に運と他のメンバーとの相乗効果の賜物でしたが、とても良い思い出です。あとは高校の文化祭や体育祭の運営に興味があったので、実行委員もずっとやっていました。
個人webサイト (https://yoshitakaushiku.net/index_ja.html) には、これまでの講演の中で主たるものの資料が出ています。また、slideshare というスライドを共有するサイト上でも私の名前で検索すると、すべての講演資料が出てきます。
画像からキャプションを生成する技術について日経産業新聞のインタビューに答えた記事はこちらです。
◇画像認識技術で説明文を生成 東大の牛久講師
人工知能は人間を超えるか
松尾豊(角川EPUB選書)
「人工知能」と呼ばれる分野は、ありがたいことに現在ではニュース等でよく見かける単語になっています。しかし、実は高校生のみなさんが生まれる前にも、大々的に人工知能がもてはやされた時期がありました。本書は、「人工知能」という言葉とその研究分野の歴史(とはいえ100年も経っていない新しい分野ですが)と、そのブームおよび冬の時代について教えてくれます。また、現在の人工知能ブームのきっかけとなっている深層学習についても、正しくわかりやすく書かれている本だと思います。
素人のように考え、玄人として実行する 問題解決のメタ技術
金出武雄(PHP文庫)
著者はコンピュータビジョンと呼ばれる研究分野で日本を代表する先生です。この本はご自身の研究者半生から得られた研究スタイルを述べられたものです。
書籍のタイトルにもありますが、新しいことを考える時にはまず素人のように着想し、これを玄人として実行することが重要であるというのが根幹のメッセージです。時として玄人であるほど自分自身の知識に囚われ、新しいことを考えようとしてもちょっとだけしか新しくないようなタコツボの思考に陥りがちです。それを打破するための「素人」としての視座と「玄人」としての見識を両立させる方法が得られると思います。これは何も研究者の仕事のみならず、創造性のある仕事すべてに共通する処方箋であると思いますし、本書にはそのような金言が詰まっています。