NDLOCRとは？わかりやすく解説

NDLOCR（エヌディーエル・オーシーアール）は、国立国会図書館（NDL）が開発・公開している、ディープラーニング（深層学習）を用いた光学文字認識（OCR）処理プログラムの総称である。

主に同館が所蔵するデジタル化資料（明治期以降の図書・雑誌、古典籍など）を全文テキスト化し、検索可能にすることを目的として開発された。

概要

国立国会図書館は、膨大な所蔵資料のデジタル化を進めているが、従来の商用OCRエンジンでは、日本の古い資料に特有の「旧字体」「多段組み」「縦書き・横書きの混在」「経年劣化による掠れ」などの認識精度に課題があった。

これらを解決するため、同館が保有する膨大なデジタル化資料のデータを学習用データとして活用し、開発したのがNDLOCRである。2020年度補正予算に明記され、2021年度に始まった^[1]。2021年度より順次、ソースコードがGitHub上で公開されており、オープンソースソフトウェアとして誰でも利用が可能となっている^[2]。

脚注

↑ 「[https://www.ndl.go.jp/file/collect/tech/council/proc15/kashin15_03.pdf 利活用促進のための取組]」国立国会図書館
↑ 「[https://github.com/ndl-lab/ndlocr_cli NDLラボ]」GitHub

NDLOCRとは？わかりやすく解説

NDLOCR

概要

脚注

関連項目

英和和英テキスト翻訳

NDLOCRとは？ わかりやすく解説

NDLOCR

概要

脚注

関連項目

急上昇のことば

英和和英テキスト翻訳

NDLOCRとは？わかりやすく解説