Hyper_Estraierとは? わかりやすく解説

Hyper Estraier

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/09/06 07:23 UTC 版)

Hyper Estraier
開発元 平林幹雄
最新版
対応OS クロスプラットフォーム
種別 全文検索
ライセンス LGPL
公式サイト 全文検索システム Hyper Estraier
テンプレートを表示

Hyper Estraier(ハイパーエストレイヤ)は、日本で開発された全文検索エンジンライブラリである。ライセンスはLGPLで提供されている。

概要

N-gram法を拡張したインデックス方式であるN.M-gram法を採用し、どの言語でも洩れの無い検索が可能になっている。また、MeCabを用いて形態素解析の結果を用いた処理を行うことが出来る。作者は平林幹雄。

バックエンドには、同じ作者によるQDBMを採用、データベースに対するgathererとsearcher、独自のテキスト分析システムで構成される。

文書が持つ複数の属性をインデックスに保存することができる。属性を用いた検索と、全文検索を併用することができる、実用的な全文検索エンジンである。類似文章検索の機能もある。

  • Hyper EstraierのAPIを利用したコマンド群
  • Webブラウザを通じて検索を行うためのCGI
  • 複数台のサーバーのP2Pによる分散処理機能。これにより1000万件以上の超大規模インデックスに対応。
  • ウェブクローラー。類似度優先による巡回機能がある。

などが同梱されている。

同作者によるEstraierという全文検索エンジンが存在する。Estraierは形態素解析(わかち書き)に基づいたインデックスを採用している。Hyper EstraierはEstraierを開発した経験に基づいて、新しく開発された全文検索エンジンである。また、Estraierの前は、Snatcherという名称で作成していた。

N.M-gram法

N.M-gram法とは、N-gram法を拡張したインデックスのデータ構造である。長さNの文字列と、それに後続する長さMの文字列をキーとしたハッシュ値とがペアとして転置インデックスに保存される。

N.M-gram法を採用することにより、トークンの出現位置情報を持つことなしに、N文字を超える長さの文字列を検索することができる。

Hyper Estraierでは、N=2, M=2でインデックスが作成される。これを2.2-gram法と呼ぶ。

コマンドツール

estcmdというコマンドラインツールが付属する。estcmdにサブコマンドをあたえることで、インデックスの作成・更新・検索などの操作を行うことができる。主なコマンドを挙げる。

create
インデックスを作成する。その際に新しい属性などを付加することができる。
edit
属性の更新を行う。
list
インデックスにある文書のリストを作成する。
gather
既にあるインデックスに新しいデータを追加する。
search
指定されたインデックスから、検索をおこなう。この際、出力形式などを指定することができる。

フィルタ

フィルタと呼ばれるテキスト抽出プログラムを利用することにより、プレインテキスト以外のフォーマットで記録されたファイルをインデックスすることができる。現在、公式ではMS OfficePDFなどのフィルタを配布している。

P2P機能

インデックスを分散して配置することによって、大規模な検索システムを構築することが可能になる。

P2Pの機能を利用する際には、ノードマスタと呼ばれる統括的なプロセスを利用し、そのプロセスが個別のノードサーバーを管理する。アプリケーションは、ノードサーバーと連携し、そのノードサーバーが個別に個々のサーバーと連携することによって、それほど難易度の無いP2P方式での検索が可能になっている。また、このノードサーバーの連携の際に「信頼度」を設定することが出来、これにより、より精度の高い検索が可能になっている。

ノード間の通信プロトコルはHTTPである。

クローラ

Hyper Estraierには、各コマンドのほかに、estwaverと呼ばれるウェブのクローラが付属している。このクローラを使うことで、他サーバーで公開されている情報に対するインデックスを作成することができる。

プログラミングとバインディング

Hyper Estraierには、CによるAPIを経由して操作することができる。主として、文書の属性を扱うもの、検索条件を扱うもの、データベースを扱うもの、という三つで構成されている。

また、Java、Perl、Ruby、Pythonといった各言語のバインディングも付属し、好きな言語でHyper Estraierを利用できる。

Hyper Estraierを利用したアプリケーション

ほかにも、Slashdot日本語版や商品検索SURE-SHOTなどが検索エンジンとして採用するなど、いくつかのサイトで検索エンジンとして利用されている。

外部リンク


「Hyper Estraier」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。



固有名詞の分類


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Hyper_Estraier」の関連用語

Hyper_Estraierのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Hyper_Estraierのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのHyper Estraier (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2025 GRAS Group, Inc.RSS