方法の概要とは? わかりやすく解説

方法の概要

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/26 16:21 UTC 版)

文書レイアウト解析」の記事における「方法の概要」の解説

文書レイアウト解析には、主に2つアプローチがある。一つ目は、生のピクセルデータに基づいて文書繰り返し解析するボトムアップアプローチである。このアプローチでは通常最初に文書白黒境界領域を見つけ、領域単語グループ化し、次にテキスト行で、最後にテキストブロックグループ化する。 もう一つアプローチは、空白幾何学的情報基づいて文書を列とブロック繰り返し分割するトップダウンアプローチである。 ボトムアップアプローチ従来アプローチであり、文書全体的な構造仮定を必要としない利点がある。一方ボトムアップアプローチでは、セグメンテーションクラスタリング繰り返す必要があり、時間がかかる可能性がある。 トップダウンアプローチはより新しく文書全体構造直接解析するという利点がある。したがって文書表示される数百または数千もの文字/記号繰り返しクラスター化する必要がない。このアプローチはより高速になる傾向があるが、それらが堅牢に動作するためには、通常文書レイアウトついていくつかの仮定を行う必要がある文書レイアウト解析アプローチには、共通するノイズ回転という2つ課題がある。ノイズとは、ごま塩ノイズガウスノイズなどの画像ノイズを指す。回転とは、テキスト行が完全にではなく文書画像回転させる余地があることを指す。文書レイアウト解析アルゴリズム光学式文字認識アルゴリズムも、文書画像内のテキスト行が平であることを仮定している。したがって回転存在する場合は、文書画像回転させて水平にすることが重要である。 したがって文書レイアウト解析コード最初のステップは、画像ノイズ除去し文書回転角度の推定値作成することである。

※この「方法の概要」の解説は、「文書レイアウト解析」の解説の一部です。
「方法の概要」を含む「文書レイアウト解析」の記事については、「文書レイアウト解析」の概要を参照ください。

ウィキペディア小見出し辞書の「方法の概要」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「方法の概要」の関連用語

方法の概要のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



方法の概要のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの文書レイアウト解析 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS