事前処理とは? わかりやすく解説

事前処理

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/18 18:37 UTC 版)

光学文字認識」の記事における「事前処理」の解説

OCRソフトウェアは、多く場合認識率を高めるために画像を「事前処理」する。使われている技術次の通りである。 傾き補正 スキャン時にドキュメント正しく整列してない場合テキストの行を完全に平または垂直にするために、文書時計回りまたは反時計回り数度傾ける。 スペックル除去 白黒斑点除去して輪郭平滑化する。 二値化 画像カラーグレースケールから白黒バイナリイメージ変換する二値化タスクは、取り出したテキスト画像背景から分離する簡単な方法である。ほとんどの商用認識アルゴリズムは、バイナリイメージに対してのみ機能するため、二値化タスク必須である。また、二値化作業結果は、文字認識段階の質に大きく影響するため、特定の入力画像タイプに対して採用する二値化手法選択慎重に行う必要がある罫線の削除 グリフ以外の罫線や線を消去するレイアウト解析、ゾーニング 列、段落脚注など個別ブロックとして識別する段組みと表を持つレイアウトで特に重要である。 行と単語の検出 単語文字図形ベースライン確立し必要に応じて単語区切るスクリプト認識 多言語文書では、スクリプト単語レベル変更される可能性があるため、特定のスクリプト処理するために適切な OCR呼び出す前にスクリプト識別が必要となる。 文字の分離、セグメンテーション 文字毎に認識するOCR場合、ひとつに繋がった複数文字分離し切り離されているが複数一つ文字になる要素結合する必要がある縦横比と縮尺の正規化 等幅フォントセグメンテーションは、垂直グリッド線が黒い領域交差する頻度が最も低い場所に基づいて画像均一なグリッド揃えることによって、比較単純に実現されるプロポーショナルフォントでは、文字間の空白文字単語間の空白文字よりも大きくなる場合があり、垂直線複数文字交差する場合があるため、より高度な手法必要になる

※この「事前処理」の解説は、「光学文字認識」の解説の一部です。
「事前処理」を含む「光学文字認識」の記事については、「光学文字認識」の概要を参照ください。

ウィキペディア小見出し辞書の「事前処理」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「事前処理」の関連用語

事前処理のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



事前処理のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの光学文字認識 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2024 GRAS Group, Inc.RSS