方法の概要
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/26 16:21 UTC 版)
文書レイアウト解析には、主に2つのアプローチがある。一つ目は、生のピクセルデータに基づいて文書を繰り返し解析するボトムアップアプローチである。このアプローチでは通常、最初に文書の白黒の境界領域を見つけ、領域を単語でグループ化し、次にテキスト行で、最後にテキストブロックでグループ化する。 もう一つのアプローチは、空白と幾何学的情報に基づいて文書を列とブロックに繰り返し分割するトップダウンアプローチである。 ボトムアップアプローチは従来のアプローチであり、文書の全体的な構造の仮定を必要としない利点がある。一方、ボトムアップアプローチでは、セグメンテーションとクラスタリングを繰り返す必要があり、時間がかかる可能性がある。 トップダウンアプローチはより新しく、文書の全体構造を直接解析するという利点がある。したがって、文書に表示される数百または数千もの文字/記号を繰り返しクラスター化する必要がない。このアプローチはより高速になる傾向があるが、それらが堅牢に動作するためには、通常、文書のレイアウトについていくつかの仮定を行う必要がある。 文書レイアウト解析のアプローチには、共通するノイズと回転という2つの課題がある。ノイズとは、ごま塩ノイズやガウスノイズなどの画像ノイズを指す。回転とは、テキスト行が完全に水平ではなく、文書画像を回転させる余地があることを指す。文書レイアウト解析アルゴリズムも光学式文字認識アルゴリズムも、文書画像内のテキスト行が水平であることを仮定している。したがって、回転が存在する場合は、文書画像を回転させて水平にすることが重要である。 したがって、文書レイアウト解析コードの最初のステップは、画像ノイズを除去し、文書の回転角度の推定値を作成することである。
※この「方法の概要」の解説は、「文書レイアウト解析」の解説の一部です。
「方法の概要」を含む「文書レイアウト解析」の記事については、「文書レイアウト解析」の概要を参照ください。
- 方法の概要のページへのリンク