事前処理
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/18 18:37 UTC 版)
OCRソフトウェアは、多くの場合、認識率を高めるために画像を「事前処理」する。使われている技術は次の通りである。 傾き補正 スキャン時にドキュメントが正しく整列していない場合、テキストの行を完全に水平または垂直にするために、文書を時計回りまたは反時計回りに数度傾ける。 スペックル除去 白黒の斑点を除去して輪郭を平滑化する。 二値化 画像をカラーやグレースケールから白黒のバイナリイメージに変換する。二値化のタスクは、取り出したいテキストや画像を背景から分離する簡単な方法である。ほとんどの商用認識アルゴリズムは、バイナリイメージに対してのみ機能するため、二値化のタスクは必須である。また、二値化作業の結果は、文字認識段階の質に大きく影響するため、特定の入力画像タイプに対して採用する二値化手法の選択は慎重に行う必要がある。 罫線の削除 グリフ以外の罫線や線を消去する。 レイアウト解析、ゾーニング 列、段落、脚注などを個別のブロックとして識別する。段組みと表を持つレイアウトで特に重要である。 行と単語の検出 単語と文字の図形のベースラインを確立し、必要に応じて単語を区切る。 スクリプト認識 多言語文書では、スクリプトは単語のレベルで変更される可能性があるため、特定のスクリプトを処理するために適切な OCR を呼び出す前にスクリプトの識別が必要となる。 文字の分離、セグメンテーション 文字毎に認識するOCR の場合、ひとつに繋がった複数の文字を分離し、切り離されているが複数で一つの文字になる要素は結合する必要がある。 縦横比と縮尺の正規化 等幅フォントのセグメンテーションは、垂直グリッド線が黒い領域と交差する頻度が最も低い場所に基づいて、画像を均一なグリッドに揃えることによって、比較的単純に実現される。プロポーショナルフォントでは、文字間の空白文字が単語間の空白文字よりも大きくなる場合があり、垂直線が複数の文字と交差する場合があるため、より高度な手法が必要になる。
※この「事前処理」の解説は、「光学文字認識」の解説の一部です。
「事前処理」を含む「光学文字認識」の記事については、「光学文字認識」の概要を参照ください。
- 事前処理のページへのリンク