光学文字認識光学文字認識の概要

ポータブルスキャナを使ってリアルタイムで光学文字認識 (OCR) を行っている動画

パスポート、請求書、銀行取引明細書、レシート、名刺、メール、データや文書の印刷物など、紙に記載されたデータをデータ入力する手法として広く使われ、紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することでコグニティブコンピューティング、機械翻訳や音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研究分野としては、パターン認識、人工知能、コンピュータビジョンが対応する。

初期のシステムは特定の書体を読むための「トレーニング」が必要であった（事前にその書体のサンプルを読ませることを意味する）。現在では、ほとんどの書体を高い識字率で変換することが可能である。いくつかのシステムでは読み込まれた画像からそれとほぼ同じになるようフォーマットされた出力（例えば、ワードプロセッサのファイルのようなもの）を生成することが可能であり、中には画像などの文書以外の部分が含まれていても正しく認識するものもある。

歴史

光学文字認識の原点は、電信技術の拡張と視覚障害者が文字を読むための機械の開発という2つの問題にまつわる活動である^[2]。1914年エマニュエル・ゴールドバーグは、文字列を読み取り電信符号に変換する機械を開発した^[要出典]。同じころエドマンド・フルニエ・ダルベ（英語版）はオプトフォン（英語版）という携帯型スキャナを開発した。これを印刷物のページ上ですべらせると、文字の形状によって異なる音を発する。

ゴールドバーグはデータ入力手段としてOCR技術の開発を続けた。後に彼は、画像を光電管で読み取り、必要な識別パターンを含むテンプレートと比較することでマッチング対象を見つけるという技法を提案した。1929年、グスタフ・タウシェクも同様のアイデアを思いつき、ドイツでOCRに関する特許を取得した。アメリカでは1933年、ポール・W・ハンデルが同様のテンプレート・マッチング方式のOCR技術の特許を取得している（アメリカ合衆国特許第 1,915,993号）。1935年、タウシェクもアメリカで特許を取得した（アメリカ合衆国特許第 2,026,329号）。

1949年、米国復員軍人援護局から視覚障害者支援のためという要請を受け、RCAの技術者らが初期のコンピュータを使ったOCRを研究した。この研究には、単に活字をコンピュータ内の文字コードに変換するだけでなく、その文字を読み上げるという部分も含まれており、初期の音声合成の研究でもある。しかし、コストがかかりすぎることが判明し、研究は挫折した^[3]。

1950年、AFSA（アメリカ国家安全保障局の前身）の暗号解読者デイヴィッド・H・シェパード（英語版）は、日本のパープル暗号を解読したことで知られるフランク・ロウレットの依頼により、ルイス・トーデラと共に局の手続きの自動化の勧告案作成に取り組んだ。その中には印刷された文書をコンピュータが処理できる形式に変換する問題も含まれていた。シェパードはそのようなことをする機械 "Gismo" を作成することを決め、友人のハーヴェイ・クックと共に自宅で夜や週末を利用して試作に取り組んだ^[4]。1953年、シェパードは特許（アメリカ合衆国特許第 2,663,758号）を取得。Gismoは英語のアルファベットのうち23文字を読み取ることができ、モールス符号を理解し、楽譜を読みとることができ、活字のページを読み上げることができ、タイプされたページを読みとってプリンターで複製することができた。シェパードはその後 Intelligent Machines Research Corporation（英語版） (IMR) を設立し、世界初のいくつかの商用OCRシステムを出荷した。Gismo も IMR のシステムも単純な文字マッチングではない画像解析をしていて、いくつかの書体を認識することができた。Gismo は画像中の文字の位置を正確に合わせる必要があったが、IMRシステムではスキャン領域のどこの文字であっても認識でき、実用に耐えるものであった。

最初の商用システムは1955年にリーダーズ・ダイジェスト社に納入され、販売報告書をコンピュータに入力するのに使われた。タイプされた報告書をパンチカードに変換し、それをコンピュータに入力するもので、年間1500万から2000万部を売り上げている同社の事務処理を効率化した^[2]。このシステムは後にスミソニアン博物館に無償で提供され展示されている。2台目のシステムはスタンダード・オイルがカリフォルニア州でクレジットカードの文字を読み取るために使い、他の石油会社もこれに追随した。IMRが1950年代後半に販売した他のシステムとしては電話会社の請求書読み取り装置やアメリカ空軍のテレタイプ用ページスキャナーなどがある。IBMなどは後にシェパードからOCR特許のライセンス供与を受けている。

1965年ごろ、リーダーズ・ダイジェストとRCAは、使われて戻ってきた同誌の広告についているクーポンのシリアル番号を読み取るOCR装置を共同で開発した。シリアル番号はRCAのプリンターでOCR-A（英語版）フォントにより印字されていて、この文字の読み取り装置は RCA 301 というコンピュータに直接接続された。この技術はトランス・ワールド航空（TWA）で航空チケットの読み取りにも使われることとなる。読み取り装置は毎分1,500枚の文書を処理でき、正しく読み取れなかった文書は弾かれる。RCAはこれを製品化し、保険会社などが採用した。

アメリカ合衆国郵便公社も1965年から発明家ジェイコブ・レインボー（英語版）の開発した技術を元にしてOCRマシンを使っている。ヨーロッパでOCRを最初に採用したのはイギリスの郵便局だった。イギリスでは1965年、郵便貯金に相当するナショナル・ジャイロ（英語版）がOCRを使った自動化を行った。カナダの郵便局は1971年からOCRを使用している。OCRは受取人の名前と住所を読み取って番号順に並べかえるために使われる。そして郵便番号に基づいたバーコードを封筒に印刷する。その後手紙はバーコードにしたがって細かく並べかえる。バーコードが宛名とかぶる可能性があるため（基本的に宛名や住所はどこに書いても良い）、バーコードは紫外線ライトで見える特殊なインクを使用している。このインクは通常の光ではオレンジ色に見える。

なお、日本では漢字の読み取りが難しいため、1968年7月1日に郵便番号が導入され、手書きの数字である郵便番号をOCRシステムで読み取って並べかえていた。1998年に郵便番号の7桁化がなされてからはOCRで読み取った際にアメリカのようにバーコード（ただし、こちらは可視光では無色なインクを使用）を印刷するようになった。

視覚障害者向けの活用

1974年、レイ・カーツワイルはあらゆる書体を読み取れるOCRの開発を行う Kurzweil Computer Products, Inc. を創業^{[注釈 1]}。カーツワイルは、音声合成技術と組合わせればこの技術が視覚障害者にとって最も役立つと考えた。鍵となる技術はCCD イメージスキャナと音声合成である。1976年1月13日、製品の完成披露が行われた。1978年、カーツワイルはOCRソフトウェアの販売を開始。最初の顧客はレクシスネクシスで、ニュースなどの文書をデータベースに入力するのに使った。2年後、カーツワイルは会社をゼロックスに売却。後にゼロックスはその部門を Scansoft としてスピンオフさせ、Scansoft はニュアンスコミュニケーションズと合併した^[5]。

2000年代には、OCRはクラウドコンピューティング環境でサービスとしてオンラインで利用可能 (WebOCR) になり、外国語の看板のリアルタイム翻訳のように、スマートフォン上のモバイルアプリケーションで利用できるようになった。スマートフォンやスマートグラスの出現により、OCRは、デバイスのカメラを使用してキャプチャされたテキストを抽出するインターネット接続モバイルデバイスアプリケーションで使用されるようになった。オペレーティングシステムに OCR 機能が組み込まれていないこれらのデバイスは、通常、OCR API を使用して、デバイスによってキャプチャおよび提供されるイメージファイルからテキストを抽出する。OCR APIは、抽出されたテキストを、元の画像で検出されたテキストの位置に関する情報とともに、デバイスアプリに戻して、テキスト読み上げなどの処理や表示に利用する。

ラテン語、キリル文字、アラビア語、ヘブライ語、ヒンディー語、ベンガル語、デーヴァナーガリー、タミル語、中国語、韓国語（ハングル）そして日本語など、多くの言語で、さまざまな商用およびオープンソースのOCRシステムが利用可能である。

応用分野

OCR エンジンは、領収書 OCR、請求書 OCR、小切手 OCR、法定請求伝票 OCR など、分野固有のさまざまなOCR アプリケーション向けに開発されている。

応用分野の例は以下の通り。

ビジネス文書のデータ入力（小切手、パスポート、請求書、銀行報告書、領収書など）
自動車ナンバー自動読取装置（Nシステム）
空港における、パスポートの認識と情報抽出
自動保険書類主要情報抽出
交通標識認識システム^[6]
名刺情報から連絡先情報の抽出^[7]
印刷された文書のテキスト版をより迅速に作成（例:プロジェクト・グーテンベルクの書籍スキャン）
印刷された文書の電子画像を検索可能にする（例:Googleブックス）
リアルタイムで手書き文字を認識（ペンコンピューティング）
CAPTCHAアンチボットシステムの突破。このシステムはOCRを防ぐための特別な設計が施されている^[8]^[9]^[10]。CAPTCHAアンチボットシステムの堅牢性のテストにも用いられる。
視覚障害者の支援技術
リアルタイムで変化する車両設計に適したCAD画像をデータベース内で識別することで、車両に指示する
スキャンした文書をサーチャブルPDF に変換して検索可能にする
印刷された楽譜を読み取る楽譜OCR
デスクトップからスクリーンショットで切り出した画像の文字認識を行うSpotOCR

脚注

注釈

^ カーツワイルは書体を選ばないOCR技術の発明者とされることもあるが、1960年代末ごろから同様の技術を開発する企業がいくつか出現している。詳しくは Schantz, The History of OCR; Data processing magazine, Volume 12 (1970), p. 46 を参照

出典

^ OnDemand, HPE Haven. “OCR Document”. 2016年4月15日時点のオリジナルよりアーカイブ。2016年4月15日閲覧。
^ ^a ^b Herbert Schantz, The History of OCR. Manchester Center, VT: Recognition Technologies Users Association, 1982.
^ "Reading Machine Speaks Out Loud" , February 1949, Popular Science.
^ Washington Daily News, April 27, 1951; New York Times, December 26, 1953
^ “音声ソフトの ScanSoft、競合する Nuance を買収”. japan.internet.com. (2005年5月10日)
^ Qing-An Zeng (28 October 2015). Wireless Communications, Networking and Applications: Proceedings of WCNA 2014. Springer. ISBN 978-81-322-2580-5
^ “Using OCR and Entity Extraction for LinkedIn Company Lookup” (2014年7月22日). 2016年4月17日時点のオリジナルよりアーカイブ。2017年6月16日閲覧。
^ “How To Crack Captchas”. andrewt.net (2006年6月28日). 2013年6月16日閲覧。
^ “Breaking a Visual CAPTCHA”. Cs.sfu.ca (2002年12月10日). 2013年6月16日閲覧。
^ John Resig (2009年1月23日). “John Resig – OCR and Neural Nets in JavaScript”. Ejohn.org. 2013年6月16日閲覧。
^ Tappert, C. C.; Suen, C. Y.; Wakahara, T. (1990). “The state of the art in online handwriting recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 12 (8): 787. doi:10.1109/34.57669.
^ ^a ^b “Optical Character Recognition (OCR) – How it works”. Nicomsoft.com. 2013年6月16日閲覧。
^ Sezgin, Mehmet; Sankur, Bulent (2004). “Survey over image thresholding techniques and quantitative performance evaluation”. Journal of Electronic Imaging 13 (1): 146. Bibcode: 2004JEI....13..146S. doi:10.1117/1.1631315. オリジナルのOctober 16, 2015時点におけるアーカイブ。 2015年5月2日閲覧。.
^ Gupta, Maya R.; Jacobson, Nathaniel P.; Garcia, Eric K. (2007). “OCR binarisation and image pre-processing for searching historical documents.”. Pattern Recognition 40 (2): 389. doi:10.1016/j.patcog.2006.04.043. オリジナルのOctober 16, 2015時点におけるアーカイブ。 2015年5月2日閲覧。.
^ Trier, Oeivind Due; Jain, Anil K. (1995). “Goal-directed evaluation of binarisation methods.”. IEEE Transactions on Pattern Analysis and Machine Intelligence 17 (12): 1191–1201. doi:10.1109/34.476511 2015年5月2日閲覧。.
^ Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Victor (2013). “Image binarisation for end-to-end text understanding in natural images.”. Document Analysis and Recognition (ICDAR) 2013 12th International Conference on: 128–132. doi:10.1109/ICDAR.2013.33. ISBN 978-0-7695-4999-6 2015年5月2日閲覧。.
^ Pati, P.B.; Ramakrishnan, A.G. (1987-05-29). “Word Level Multi-script Identification”. Pattern Recognition Letters 29 (9): 1218–1229. doi:10.1016/j.patrec.2008.01.027.
^ “Basic OCR in OpenCV | Damiles”. Blog.damiles.com (2008年11月20日). 2013年6月16日閲覧。
^ ^a ^b ^c Ray Smith (2007年). “An Overview of the Tesseract OCR Engine”. 2010年9月28日時点のオリジナルよりアーカイブ。2013年5月23日閲覧。
^ “OCR Introduction”. Dataid.com. 2013年6月16日閲覧。
^ “How OCR Software Works”. OCRWizard. 2009年8月16日時点のオリジナルよりアーカイブ。2013年6月16日閲覧。
^ “The basic pattern recognition and classification with openCV | Damiles”. Blog.damiles.com (2008年11月14日). 2013年6月16日閲覧。
^ http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=PTXT&s1=10,679,089&OS=10,679,089&RS=10,679,089
^ ^a ^b ^c “How does OCR document scanning work?”. Explain that Stuff (2012年1月30日). 2013年6月16日閲覧。
^ “How to optimize results from the OCR API when extracting text from an image? - Haven OnDemand Developer Community”. 2016年3月22日時点のオリジナルよりアーカイブ。2020年12月21日閲覧。
^ Fehr, Tiff, How We Sped Through 900 Pages of Cohen Documents in Under 10 Minutes, Times Insider, The New York Times, March 26, 2019
^ “Train Your Tesseract”. Train Your Tesseract (2018年9月20日). 2018年9月20日閲覧。
^ “What is the point of an online interactive OCR text editor? - Fenno-Ugrica” (2014年2月21日). 2020年12月21日閲覧。
^ Riedl, C.; Zanibbi, R.; Hearst, M. A.; Zhu, S.; Menietti, M.; Crusan, J.; Metelsky, I.; Lakhani, K. (20 February 2016). “Detecting Figures and Part Labels in Patents: Competition-Based Development of Image Processing Algorithms”. International Journal on Document Analysis and Recognition 19 (2): 155. arXiv:1410.6751. doi:10.1007/s10032-016-0260-8.
^ “The Fifth Annual Test of OCR Accuracy”. 2012年4月27日閲覧。
^ Holley, Rose (2009年4月). “How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs”. D-Lib Magazine. 2011年1月5日閲覧。
^ Suen, C.Y., et al (1987-05-29). Future Challenges in Handwriting and Computer Applications. 3rd International Symposium on Handwriting and Computer Applications, Montreal, May 29, 1987 2008年10月3日閲覧。.
^ Tappert, Charles C., et al (1990-08). The State of the Art in On-line Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 12 No 8, August 1990, pp 787-ff 2008年10月3日閲覧。.

[前の解説]

[続きの解説]

「光学文字認識」の続きの解説一覧

[5] カーツワイルは書体を選ばないOCR技術の発明者とされることもあるが、1960年代末ごろから同様の技術を開発する企業がいくつか出現している。詳しくは Schantz, The History of OCR; Data processing magazine, Volume 12 (1970), p. 46 を参照

[1] OnDemand, HPE Haven. “OCR Document”. 2016年4月15日時点のオリジナルよりアーカイブ。2016年4月15日閲覧。

[Schantz1982-2] Herbert Schantz, The History of OCR. Manchester Center, VT: Recognition Technologies Users Association, 1982.

[3] "Reading Machine Speaks Out Loud" , February 1949, Popular Science.

[4] Washington Daily News, April 27, 1951; New York Times, December 26, 1953

[6] “音声ソフトの ScanSoft、競合する Nuance を買収”. japan.internet.com. (2005年5月10日)

[Zeng2015-7] Qing-An Zeng (28 October 2015). Wireless Communications, Networking and Applications: Proceedings of WCNA 2014. Springer. ISBN 978-81-322-2580-5

[8] “Using OCR and Entity Extraction for LinkedIn Company Lookup” (2014年7月22日). 2016年4月17日時点のオリジナルよりアーカイブ。2017年6月16日閲覧。

[9] “How To Crack Captchas”. andrewt.net (2006年6月28日). 2013年6月16日閲覧。

[10] “Breaking a Visual CAPTCHA”. Cs.sfu.ca (2002年12月10日). 2013年6月16日閲覧。

[11] John Resig (2009年1月23日). “John Resig – OCR and Neural Nets in JavaScript”. Ejohn.org. 2013年6月16日閲覧。

[12] Tappert, C. C.; Suen, C. Y.; Wakahara, T. (1990). “The state of the art in online handwriting recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 12 (8): 787. doi:10.1109/34.57669.

[nicomsoft-13] “Optical Character Recognition (OCR) – How it works”. Nicomsoft.com. 2013年6月16日閲覧。

[Sezgin2004-14] Sezgin, Mehmet; Sankur, Bulent (2004). “Survey over image thresholding techniques and quantitative performance evaluation”. Journal of Electronic Imaging 13 (1): 146. Bibcode: 2004JEI....13..146S. doi:10.1117/1.1631315. オリジナルのOctober 16, 2015時点におけるアーカイブ。 2015年5月2日閲覧。.

[Gupta2007-15] Gupta, Maya R.; Jacobson, Nathaniel P.; Garcia, Eric K. (2007). “OCR binarisation and image pre-processing for searching historical documents.”. Pattern Recognition 40 (2): 389. doi:10.1016/j.patcog.2006.04.043. オリジナルのOctober 16, 2015時点におけるアーカイブ。 2015年5月2日閲覧。.

[Trier1995-16] Trier, Oeivind Due; Jain, Anil K. (1995). “Goal-directed evaluation of binarisation methods.”. IEEE Transactions on Pattern Analysis and Machine Intelligence 17 (12): 1191–1201. doi:10.1109/34.476511 2015年5月2日閲覧。.

[Milyaev2013-17] Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Victor (2013). “Image binarisation for end-to-end text understanding in natural images.”. Document Analysis and Recognition (ICDAR) 2013 12th International Conference on: 128–132. doi:10.1109/ICDAR.2013.33. ISBN 978-0-7695-4999-6 2015年5月2日閲覧。.

[18] Pati, P.B.; Ramakrishnan, A.G. (1987-05-29). “Word Level Multi-script Identification”. Pattern Recognition Letters 29 (9): 1218–1229. doi:10.1016/j.patrec.2008.01.027.

[19] “Basic OCR in OpenCV | Damiles”. Blog.damiles.com (2008年11月20日). 2013年6月16日閲覧。

[Tesseract_overview-20] Ray Smith (2007年). “An Overview of the Tesseract OCR Engine”. 2010年9月28日時点のオリジナルよりアーカイブ。2013年5月23日閲覧。

[21] “OCR Introduction”. Dataid.com. 2013年6月16日閲覧。

[ocrwizard-22] “How OCR Software Works”. OCRWizard. 2009年8月16日時点のオリジナルよりアーカイブ。2013年6月16日閲覧。

[23] “The basic pattern recognition and classification with openCV | Damiles”. Blog.damiles.com (2008年11月14日). 2013年6月16日閲覧。

[24] ttp://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=PTXT&s1=10,679,089&OS=10,679,089&RS=10,679,089

[explain-25] “How does OCR document scanning work?”. Explain that Stuff (2012年1月30日). 2013年6月16日閲覧。

[26] “How to optimize results from the OCR API when extracting text from an image? - Haven OnDemand Developer Community”. 2016年3月22日時点のオリジナルよりアーカイブ。2020年12月21日閲覧。

[27] Fehr, Tiff, How We Sped Through 900 Pages of Cohen Documents in Under 10 Minutes, Times Insider, The New York Times, March 26, 2019

[28] “Train Your Tesseract”. Train Your Tesseract (2018年9月20日). 2018年9月20日閲覧。

[29] “What is the point of an online interactive OCR text editor? - Fenno-Ugrica” (2014年2月21日). 2020年12月21日閲覧。

[30] Riedl, C.; Zanibbi, R.; Hearst, M. A.; Zhu, S.; Menietti, M.; Crusan, J.; Metelsky, I.; Lakhani, K. (20 February 2016). “Detecting Figures and Part Labels in Patents: Competition-Based Development of Image Processing Algorithms”. International Journal on Document Analysis and Recognition 19 (2): 155. arXiv:1410.6751. doi:10.1007/s10032-016-0260-8.

[31] “The Fifth Annual Test of OCR Accuracy”. 2012年4月27日閲覧。

[32] Holley, Rose (2009年4月). “How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs”. D-Lib Magazine. 2011年1月5日閲覧。

[33] Suen, C.Y., et al (1987-05-29). Future Challenges in Handwriting and Computer Applications. 3rd International Symposium on Handwriting and Computer Applications, Montreal, May 29, 1987 2008年10月3日閲覧。.

[34] Tappert, Charles C., et al (1990-08). The State of the Art in On-line Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 12 No 8, August 1990, pp 787-ff 2008年10月3日閲覧。.

[2]

[3]

[4]

[注釈 1]

[5]

[6]

[7]

[8]

[9]

[10]

光学文字認識 光学文字認識の概要