テキスト認識
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/18 18:37 UTC 版)
中核となる OCR アルゴリズムには以下の 2 つの基本的な種類があり、候補文字のランク付けされたリストを生成する。 マトリックスマッチング 画像をピクセル単位で格納されたグリフと比較する。"パターンマッチング"、"パターン認識"、"デジタル画像相関"ともいわれる技術である。これは、入力グリフがイメージの残りの部分から正しく分離されていることと、格納されているグリフが同じフォントで同じスケールであることに依存する。この方法は、同一活字を入力すると最適に機能し、途中で新しいフォントが出てくる場合はうまく機能しない。これは、初期の物理写真セルベースのOCRが実装した技術である。 特徴検出 グリフが線分、閉じたループ、線の方向、線の交差などの “フィーチャ(特徴)” に分解される。検出機能は、表現の次元性を低下させ、認識プロセスを計算上効率的にする。これらのフィーチャは、文字の抽象的なベクトルのような表現と比較され、1つ以上のグリフプロトタイプに縮小される。コンピュータビジョンにおける特徴検出の一般的なテクニックは、一般的にインテリジェント手書き文字認識と実際に最も近代的なOCRソフトウェアで使われる。k近傍アルゴリズムなどの最も近い近隣分類子は、画像フィーチャと格納されているグリフフィーチャを比較し、最も近い一致を選択する。 CuneiformやTesseractなどのソフトウェアは、文字認識に2パス法を使用する。2番目のパスは「適応認識」と呼ばれ、最初のパスで高い信頼を得て認識された文字形状を使用して、2番目のパスの残りの文字をより良く認識する。これは、特殊なフォントやフォントが歪んでいる(例えば、ぼやけた、またはフェードされている)低品質でスキャンされた画像に有利である。 OCRopus や Tesseractのような最近の OCR ソフトウェアは、単一の文字に焦点を当てるのではなく、テキストの行全体を認識するように訓練されたニューラルネットワークを使用する。 反復 OCR と呼ばれる新しい手法では、ページ レイアウトに基づいて文書を自動的にセクションに切り取る。OCR は、ページレベルの OCR 精度を最大化するために、可変文字信頼レベルのしきい値を使用してセクションに対して個別に実行される。 OCR の結果は、標準化されたALTO形式、米国議会図書館によって管理される専用の XML スキーマで格納される。その他の一般的な形式は、hOCR と PAGE XML である。
※この「テキスト認識」の解説は、「光学文字認識」の解説の一部です。
「テキスト認識」を含む「光学文字認識」の記事については、「光学文字認識」の概要を参照ください。
- テキスト認識のページへのリンク