最初のステップ:帳票構造の評価
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/06/03 16:20 UTC 版)
「帳票処理」の記事における「最初のステップ:帳票構造の評価」の解説
帳票自動処理を理解するための最初のステップは、データの抽出が必要な帳票の種類を分析することである。帳票は、データを抽出するために、2つの高レベルの分類のいずれかに分類できる。 元々4つの分類が提案されていたが、以下の2種類に落ち着いた。 固定帳票。この種類の帳票は、抽出されるデータが常にページ上の同じ絶対位置にある帳票として定義される。これにより、データを抽出するために、ある種類のレンズグリッドを文書およびこの文書の後続のすべての出現に適用できる。固定帳票の例は、典型的なクレジット申請帳票である。 半構造化(または非構造化)帳票。この帳票は、データの場所とデータを保持するフィールドが文書ごとに異なる帳票です。この種類の文書は、固定形式ではないという事実によっておそらく最も簡単に定義される。文書キャプチャ業界では、半構造化帳票は非構造化帳票とも呼ばれる。これらの種類の帳票の例には、手紙、契約書、および請求書が含まれる。 AIIMの調査によると、組織内の文書の約80%が半構造化された定義に該当する。 いずれの種類の帳票からのデータ抽出に使用される要素技術(以下で説明)は同じであるが、これらの適用方法は、文書の種類によって大幅に異なる。
※この「最初のステップ:帳票構造の評価」の解説は、「帳票処理」の解説の一部です。
「最初のステップ:帳票構造の評価」を含む「帳票処理」の記事については、「帳票処理」の概要を参照ください。
- 最初のステップ:帳票構造の評価のページへのリンク