文書フィルタ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/11 00:42 UTC 版)
検索対象文書がプレーンテキスト以外、たとえばHTML文書ならばタグの除去等の処理を行ってテキストを抽出できるが、特定メーカーのワープロ独自形式などバイナリ形式の場合、インデクサは直接ファイルからテキストを抽出することが出来ないため、文書フィルタを利用して該当ファイルからテキストを抜き出す必要が生じる。文書フィルタ機能はインデクサが内包しているものもあれば、アドインなどの機能拡張によって実装する場合もある。 代表的な文書フィルタXpdfXpdf NamazuでPDF文書からテキストを抽出するために利用されることが多い。 IFilterIFilterShop IFilter.Org Microsoft Office 2010 Filter Packs Index Service、Windowsデスクトップサーチのアドインとして各社より提供されている。 xdoc2txthttp://ebstudio.info/home/xdoc2txt.html 高速Grepソフトウェア「KWIC Finder」からフィルタ部分を抜き出したもの。Hyper Estraier では標準文書フィルタとして利用されている。
※この「文書フィルタ」の解説は、「全文検索」の解説の一部です。
「文書フィルタ」を含む「全文検索」の記事については、「全文検索」の概要を参照ください。
- 文書フィルタのページへのリンク