読み方のわからない文字の情報検索で苦労したことのない人って、いないでしょう。子どもの頃、自分の名前をちゃんと読んでもらえなかったことで苦労した耒代先生は、大人になって古代木簡文字研究に運命の出会いをし、古文書の文字を情報検索できるシステムを開発しました。
古文書の読めない字を読み解くアプリ
人文科学の立場からから歴史学と情報について話したいと思います。今日の具体的なテーマは、読めない文字への挑戦です。私にとって、自分の名前「耒代」がまず読めません。「きただい」と言います。小学校のころ、校長先生に読んでもらえなかったという悲しい思い出があります。なんとかしたいと大学で手書き文字認識の研究を始め、その後の運命の出会いが古代木簡という古文書研究でした。
古代木簡は、ほとんどが使い捨て用途で大量に作られ、用が済むと捨てられてしまった文書です。主に古い井戸や側溝などのゴミ捨て場の跡から大量に出土します。でも、真実にたどり着くにはゴミ捨て場から、とは推理小説の鉄則。この鉄則よろしく毎日、古代木簡を洗って保存液につけながら解読をしています。しかし、とにかく読めない文字が多いのです。
一例を挙げると、下図の木簡の冒頭の2文字がさっそく読めません。特に二番目の文字に関しては、一度、たんぼの「田」ではなかろうかという報告が出されましたが、その後にやはり十分に読めていないということで解読結果を取り消すことになりました。
字が読めないのは、情報検索のとき大きな問題になります。私の名前のように読み方も字種もわからない文字は検索できないのです。
古文書の文字は「くずし字」だったり、木片の汚れや変色のために、一部しか読めなかったりすることがあります。
それでは困ると開発したのが「MOJIZO」というウェブアプリケーションです(東大史料編纂所と奈良文化財研究所との共同)。読めない文字の画像をMOJIZOに入力すると、類似した古文書の文字画像を表示してくれます。形が似ていれば、検索することができるのです。
古文書の汚れや変色を消す画像処理のためのiPhone用アプリ「MOJIZOkin」も公開しています。全部フリーで使用できますので、試しにご利用いただければと思います。
弱みを強みに 手書きをデジタルに
中川正樹(OROCO PLANNING CO.,LTD.)
著者の中川先生は、東京農工大学の先生。手書き文字認識、パターン認識の第一人者ですが、それに限らず、理工系の研究者を目指す人が知っておくべき様々なこと―技術との接し方や研究者としての心構え、研究資金の重要性と獲得方法などが記されています。「鶏口となるも牛後となるなかれ」といった志を持つ人には特におすすめです。
筆者はオペレーティングシステムの研究者としてコンピュータへの理解を深めながら、まだメインメモリが1MBに満たない時代に「手書き」というアナログな情報をデジタル化する重要性に気付き、他者に先駆けて大規模な手書きデジタルデータの収集に成功し、その後も手書き文字認識をはじめいくつかの分野で第一線の研究者として活躍し続けました。筆者の業績は、特に日本の手書き文字認識の分野においては、研究の歴史そのものといえます。本書は、研究の起点から今後の行く末までを一通り知ることができる貴重な存在です。
研究者はきっと好きなことだけやっているのだろう、といった誤解も社会の一部にはありますが、実際には多くの研究者が自分の力で研究費を稼ぎ、他者の評価に晒されながら、独創的な研究活動のために戦っています。本書には、惜しまれながらも引退間近となった筆者が研究者生活を通して学び、感じ取ってきた様々なことが記録されています。
筆者は自身のことを天邪鬼(あまのじゃく)と称しています。これは、現実社会に生きながら他の人とは全く異なる独創性が求められる研究者の立場をよく表した言葉です。その立場を忘れたとき、研究者の視野は限りなく狭くなります。一方で、その立場を正しく意識すれば、視野は限りなく広がります。一つのことに囚われず、複数の研究対象から新しい発想を紡ぎだす筆者のスタイルは、天邪鬼である自分を意識し続けることで得られた真骨頂だと思います。研究者を目指す人には、本書を通して正しいビジョンを身につけてもらいたいと思います。