NDLOCR
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2026/05/18 14:52 UTC 版)
NDLOCR(エヌディーエル・オーシーアール)は、国立国会図書館(NDL)が開発・公開している、ディープラーニング(深層学習)を用いた光学文字認識(OCR)処理プログラムの総称である。
主に同館が所蔵するデジタル化資料(明治期以降の図書・雑誌、古典籍など)を全文テキスト化し、検索可能にすることを目的として開発された。
概要
国立国会図書館は、膨大な所蔵資料のデジタル化を進めているが、従来の商用OCRエンジンでは、日本の古い資料に特有の「旧字体」「多段組み」「縦書き・横書きの混在」「経年劣化による掠れ」などの認識精度に課題があった。
これらを解決するため、同館が保有する膨大なデジタル化資料のデータを学習用データとして活用し、開発したのがNDLOCRである。2020年度補正予算に明記され、2021年度に始まった[1]。2021年度より順次、ソースコードがGitHub上で公開されており、オープンソースソフトウェアとして誰でも利用が可能となっている[2]。
脚注
- ↑ 「[https://www.ndl.go.jp/file/collect/tech/council/proc15/kashin15_03.pdf 利活用促進のための取組]」国立国会図書館
- ↑ 「[https://github.com/ndl-lab/ndlocr_cli NDLラボ]」GitHub
関連項目
- NDLOCRのページへのリンク