第7回 スマホ・SNSから、次々に流入するビッグデータを、機械は、勝手に学習している
ではビッグデータとは何か。わかりやすく説明しましょう。厳密な意味でビッグデータの定義はまだ定まっていないのですが、インターネットの普及と処理速度の飛躍的向上により生成された大容量のデジタルデータのことと言っていいでしょう。
ブログ、動画投稿サイト、SNSなど、多種雑多な情報がインターネット上には、日々蓄積されています。どれくらいの大容量なのかというと、現在、インターネットで日々つながる世界中のコンピュータの生み出すデータは1日合計数100テラバイト(1テラは約1兆バイト)と言われます。しかし2020年には、1日40ゼタバイト(1ゼタは1兆の10億倍)になるだろうと予測されています。
ビッグデータという言葉は、2010年ごろから使われ始め、2012年米大統領選で、ビッグデータを駆使し、オバマが勝利したことで有名です。ビッグデータは、君たちが日常的にアクセスするパソコンやスマホのフェースブック、ツイッター、LINEの文字、音声、画像などから蓄積された世界中のデータの総量と言っていいでしょう。
このビッグデータを最大限利用し、今まで予想もしなかったパターンやルールを発見するのが機械学習です。人工知能研究はもともと脳のニューロンの仕組みを模倣し、計算機で再現しようということから始まりました。でも、機械学習はそこからちょっと離れ、たくさんのデータを使って知的な構造を作るという、非常に実用的な方向を目指しました。ビッグデータ時代の到来とマッチし、これは非常にうまくいきました。2000年以降のIT革命とビッグデータにより、大量のデータがリアルタイムで入るインフラ(環境)が整ったからです。コンピュータは自分でデータを集めてきて、そこで得た知識を使ってさらに新しいデータを取ることができるようになりました。計算機が自分で自律的に、自分が学習する材料を集めてくるようになったこと。それが機械学習の成功の一番の要因です。
機械学習の実例を挙げると、例えばウエブに掲載されたオンライン広告のクリック率から広告収入を予測できます。ユーザーの嗜好を機械が分析し、他社商品から乗り換える可能性の高いユーザーにだけ広告を案内することもできます。つまり機械自身が世界中から蓄積されたビッグデータを用い、勝手に学びだしている。
こんな人工知能の時代到来に、コンピュータによる人間の支配を心配する人がいます。そうなろうとなるまいと、少なくともスマホのSNSを使う時代に生まれた君たちは、そういう巨大に肥大化した社会に生きていることを理解して欲しいんです。