Loading...

ディープラーニングによってテキスト認識が飛躍的に向上!

もしも、膨大な紙の資料を入力しなければならない業務を任されたとしたら、きっとほとんどの人が作業する前から疲れてしまいますよね。技術が発達した今日においても、この業務からはなかなか自由になれません。しかし、ここ最近彗星のごとく登場したディープラーニングを活用することによって、これらの業務が一気に改善されるかもしれないのです。ここではディープラーニングによるテキスト解読について触れてみます。

OCRでも手書き文字の認識は苦手だった

スキャナで読み込んだテキスト文字を認識し、PCに入力してくれるシステムをOCR(Optical Character Recognition、光学式文字認識)といいます。これにより印刷物のテキスト認識については、非常に高い再現率で入力されるようになりました。かつての学者の卵なら、学術論文をまとめる際に、きっと膨大な量の資料を手で入力したと思われますが、このシステムが登場したことで、今ではそういった業務はコンピュータがほとんどやってくれるようになりました。

しかし、OCRでも認識が不得意なものが、「手書き文字」です。どうしても個人の癖があるため、従来の技術では高度な再現は無理とされてきました。それを飛躍的に改善しようとしているのが、ディープラーニングです。

今や手書き文字認識率は98%以上を実現

手書き文字の認識で優れた技術を持っているのが、株式会社EduLabです。同社は、ディープラーニングによる手書き文字(日本語)認識技術の開発プロジェクトを2015年より進め、今年の6月時点で業界トップレベルの認識率98.66%を実現したことを発表しました

同社がこの技術を開発した背景には、教育改革があります。現在の大学入試センター試験が、「知識・技能」を問う問題が中心になっているのに対し、今後教育で求められるのは「知識・技能」と「思考力・判断力・表現力」を総合的に評価したものであるという指摘が従来から挙がっていました。そのためにも、入試では記述式の解答方式が望ましいという状況に移っています。しかし、マークシート採点と異なり、記述式の解答方式では採点者の判断を要するため、採点に時間がかかりすぎるというデメリットが生じます。この問題の解決のためにも、手書き文字認識を向上させるニーズがあったのです。

同社では、ディープラーニングに精通した専門会社と共に研究を進め、第1段階の開発においては手書き文字認識率は98.66%を実現したのです。採点現場への投入も間近かもしれません。

パナソニックがディープラーニングによる手書き文字認識ソフトを発売

すでに発売されているディープラーニングによる手書き文字認識ソフトもあります。それが今年10月にパナソニックが発売した「帳票OCR Ver.8」(クライアント版:398,000円、税抜)。かすれた文字など低品質文字にも強い高精度OCRエンジンを搭載しており、スキャンした注文書、勤怠管理表、アンケートなどの帳票画像から、活字、手書き文字、チェックマーク、バーコード、QRコードなどを認識し、編集可能な電子データに変換します。

これは以前から発売されている既存ソフトですが、今回のバージョンからディープラーニング技術が使われており、手書き文字(数字)の認識精度が飛躍的に向上しているとのことです。

Facebookもテキスト認識サービスを展開

さらに驚きのサービスが、Facebookが展開している「DeepText」。これもディープラーニングを用いたサービスで、Facebook上に存在している膨大な量のテキストデータを高度に分析・理解するものです。ほぼ人間並みの正確さで、1秒あたり1000件の投稿に含まれるテキスト内容の文脈を理解することができ、20カ国語以上の言語に対応します。

同社では、「『Deep Text』のようなエンジンを利用し、Facebook上でのテキストにおけるさまざまな表現方法を分析・理解することは、ユーザーが求めるコンテンツに合致したものをより正確に表示したり、また、スパムのような望ましくないコンテンツを除去することにも役立ち、ユーザー体験の向上につながる」と述べています。

このサービスは、Facebookの「Messenger」など一部のアプリケーションですでに利用されています。例えば、タクシーが必要だとユーザーが入力すると、同ツールはそのユーザーがタクシーを呼ぶためのプロンプトを送信してきます。また、投稿内容に基づいてユーザーにさまざまなツールを提示するために、DeepTextモデルを利用することも始めているそうです。今でさえかなり高性能なレコメンド機能が動作していますが、さらに高精度の凄い性能になるわけですね。う~ん、技術の進歩は、恐ろしいほど速いです!