テキスト画像データ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/12/16 01:29 UTC 版)
テキストの符号化は、人間の視覚的解釈の性質に基づいている。人間は、二値画像内の同じ文字の2つのインスタンスの違いを、たとえそれが画素ごとに正確に一致していなかったとしても、区別することはできない。従って、同じ文字の各出現のビットマップを個別に符号化する代わりに、1つの代表的な文字インスタンスのビットマップのみを符号化する必要がある。各文字のインスタンスについて、その文字のコード化されたインスタンスが「記号辞書」に格納される。テキスト画像データには、パターンマッチング・置換法(PM&S: pattern matching and substitution)とソフトパターンマッチング法(SPM: soft pattern matching)という2つの符号化方法がある。これらの方法については、以下のサブセクションで説明する。 パターンマッチング・置換法 画像セグメンテーションと一致検索を実行した後、一致が存在する場合、辞書内の対応する代表ビットマップのインデックスとページ上の文字の位置をコード化する。位置は、通常、以前にコード化された別の文字からの相対位置である。一致するものが見つからない場合、セグメント化されたピクセルブロックは直接コーディングされ、辞書に追加される。PM&S法は顕著な圧縮を達成することができるが、画像解像度が低い場合には、処理中に置換エラーが生じる可能性がある。 ソフトパターンマッチング法 辞書へのポインタおよび文字の位置情報に加えて、画像内の元の文字を再構成するために重要な情報であるため、詳細化データ(refinement data)も必要となる。詳細化データの導入により、文字置換エラーが非常に起こりにくくなる可能性がある。詳細化データは、現在の所望の文字インスタンスを含み、これは、辞書内の現在の文字および一致する文字の両方のピクセルを用いて符号化される。現在の文字インスタンスが一致した文字と高度に相関することが知られているので、現在のピクセルの予測はより正確である。
※この「テキスト画像データ」の解説は、「JBIG2」の解説の一部です。
「テキスト画像データ」を含む「JBIG2」の記事については、「JBIG2」の概要を参照ください。
- テキスト画像データのページへのリンク