ボトムアップアプローチの例
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/26 16:21 UTC 版)
「文書レイアウト解析」の記事における「ボトムアップアプローチの例」の解説
このセクションでは、1993年にO`Gormanによって開発されたボトムアップの文書レイアウト解析アルゴリズムの手順を説明する。 このアプローチの手順は次の通りである。 画像を前処理して、ガウスノイズとごま塩ノイズを除去する。一部のノイズ除去フィルターは、コンマとピリオドをノイズと見なす場合があるため、注意が必要である。 画像をバイナリ画像に変換する。つまり、各ピクセル値を完全に白または完全に黒に変換する。 画像を黒いピクセルの連結成分に分割します。これらは画像のシンボルです。シンボルごとに、境界ボックスと図心を計算する。 各シンボルについて、 k最近傍を決定します。ここでkは4以上の整数です。 O`Gormanは、堅牢性と速度の間の適切な妥協点として、彼の論文でk = 5を提案しています。少なくともk = 4を使用する理由は、文書内のシンボルの場合、最も近い2つまたは3つのシンボルが、同じテキスト行のすぐ隣にあるシンボルであるからである。 4番目に近いシンボルは通常、真上または真下の線上にあり、以下の最近傍計算にこれらのシンボルを含めることが重要である。 シンボルの各最近傍ペアは、一方のシンボルの重心からもう一方のシンボルの重心を指すベクトルによって関連付けられます。これらのベクターは、最近傍のシンボルのすべてのペアのためにプロットされている場合、その一つは、文書のためのdocstrum(以下を参照の数字)と呼ばれているものを取得する。また、水平からの角度Θと2つの最近傍シンボル間の距離Dを使用して、最近傍角度と最近傍距離のヒストグラムを作成することもできる。 最近傍角度ヒストグラムを使用して、文書の回転を計算できる。回転が許容できる程度に小さい場合は、次の手順に進む。そうでない場合は、画像を回転させて回転を取り除き、手順3に戻る。 最近傍距離ヒストグラムにはいくつかのピークがあり、これらのピークは通常、文字間間隔、単語間間隔、および行間間隔を表す。ヒストグラムからこれらの値を計算し保持しておく。 各記号について、最も近い隣接記号を調べ、文字間間隔距離または単語間間隔距離の許容範囲内にある距離にある記号にフラグを付ける。フラグが立てられた最近傍シンボルごとに、それらの重心を結ぶ線分を描画する。 線分によって隣接するシンボルに接続されたシンボルは、テキスト行を形成する。テキスト行のすべての重心を使用して、線形回帰でテキスト行を表す実際の線分を計算できる。テキスト行のシンボルのすべての重心が実際に同一線上にある可能性は低いため、これは重要である。 テキスト行の各ペアについて、対応する線分の間の最小距離を計算できる。この距離がステップ7で計算された行間間隔の許容範囲内にある場合、2つのテキスト行は同じテキストブロックにグループ化される。 最後に、各テキストブロックの境界ボックスを計算でき、文書レイアウト解析が完了する。
※この「ボトムアップアプローチの例」の解説は、「文書レイアウト解析」の解説の一部です。
「ボトムアップアプローチの例」を含む「文書レイアウト解析」の記事については、「文書レイアウト解析」の概要を参照ください。
- ボトムアップアプローチの例のページへのリンク