ボトムアップアプローチの例とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > ボトムアップアプローチの例の意味・解説 

ボトムアップアプローチの例

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/26 16:21 UTC 版)

文書レイアウト解析」の記事における「ボトムアップアプローチの例」の解説

このセクションでは、1993年にO`Gormanによって開発されボトムアップ文書レイアウト解析アルゴリズムの手順説明する。 このアプローチの手順は次の通りである。 画像前処理して、ガウスノイズごま塩ノイズ除去する一部ノイズ除去フィルターは、コンマピリオドノイズ見なす場合があるため、注意が必要である。 画像バイナリ画像変換する。つまり、各ピクセル値を完全に白または完全に黒に変換する画像を黒いピクセル連結成分分割します。これらは画像シンボルです。シンボルごとに、境界ボックス図心計算する。 各シンボルについて、 k最近傍を決定します。ここでkは4以上の整数です。 O`Gormanは、堅牢性速度の間の適切な妥協点として、彼の論文でk = 5を提案してます。少なくともk = 4使用する理由は、文書内のシンボル場合最も近い2つまたは3つのシンボルが、同じテキスト行のすぐ隣にあるシンボルであるからである。 4番目に近いシンボル通常真上または真下線上にあり、以下の最近計算にこれらのシンボル含めることが重要である。 シンボルの各最近ペアは、一方シンボル重心からもう一方シンボル重心を指すベクトルによって関連付けられます。これらのベクターは、最近傍のシンボルすべてのペアのためにプロットされている場合、その一つは、文書のためのdocstrum(以下を参照数字)と呼ばれているものを取得するまた、平からの角度Θと2つ最近シンボル間の距離Dを使用して最近角度最近傍距離のヒストグラム作成するともできる最近角度ヒストグラム使用して文書回転計算できる回転許容できる程度小さ場合は、次の手順に進む。そうでない場合は、画像回転させて回転取り除き手順3に戻る。 最近傍距離ヒストグラムはいくつかのピークがあり、これらのピーク通常文字間間隔、単語間間隔、および行間間隔を表す。ヒストグラムからこれらの値を計算し保持しておく。 各記号について最も近い隣接記号調べ文字間間隔距離または単語間間隔距離の許容範囲内にある距離にある記号フラグ付ける。フラグ立てられ最近シンボルごとに、それらの重心を結ぶ線分描画する線分によって隣接するシンボル接続されシンボルは、テキスト行を形成するテキスト行のすべての重心使用して線形回帰テキスト行を表す実際線分計算できるテキスト行のシンボルすべての重心実際に同一線上にある可能性は低いため、これは重要である。 テキスト行の各ペアについて、対応する線分の間の最小距離を計算できる。この距離がステップ7で計算された行間間隔の許容範囲内にある場合2つテキスト行は同じテキストブロックグループ化される。 最後に、各テキストブロック境界ボックス計算でき、文書レイアウト解析完了する

※この「ボトムアップアプローチの例」の解説は、「文書レイアウト解析」の解説の一部です。
「ボトムアップアプローチの例」を含む「文書レイアウト解析」の記事については、「文書レイアウト解析」の概要を参照ください。

ウィキペディア小見出し辞書の「ボトムアップアプローチの例」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「ボトムアップアプローチの例」の関連用語

1
16% |||||

ボトムアップアプローチの例のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



ボトムアップアプローチの例のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの文書レイアウト解析 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS