アイ‐アール【IR】
読み方:あいあーる
《information retrieval》情報検索。
インフォメーション‐リトリーバル【information retrieval】
じょうほう‐けんさく〔ジヤウホウ‐〕【情報検索】
情報検索
![]() | この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2024年3月) |
情報検索(じょうほうけんさく、英語: information retrieval)とは、コンピュータを用いて大量のデータ群から目的に合致したものを取り出すこと。検索の対象となるデータには文書や画像、音声、映像(動画)、その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。インターネットの発達により検索はインターネットを介して行われることも多いが、ここでは情報を検索[1]するためのコンピュータ側における仕組みを記述している。
情報検索に対するコンピュータ側における技術は情報を人間が直接管理するのに比べ、データの量的な制約やデータの取り扱いの一貫性を保つ困難さという制約を受けることなく、高速で安定なシステムにより利用者に適切なデータを提供する機能と位置付けることができる。
情報検索と情報検索システムの全体像
情報検索が基盤としている技術は多数の分野にのぼる。情報検索はデータの管理および入出力のためのデータベース、文書データ処理のための自然言語処理や計算言語学、画像や音声を扱うための信号処理や認知心理学を背景とするパターン認識技術、メタデータに関する考察の基盤となった図書館情報学、検索アルゴリズム設計や情報検索システムの評価尺度考案のヒントとして寄与した諸数学理論などのさまざまな要素技術の組み合わせによって成り立っている。情報検索システムは情報検索を実現するためのソフトウェアやハードウェアによって構成されるシステムである。ここでは主にソフトウェアに関して、現在よく用いられているシステムの構成について述べる。
歴史と現在の課題
1970年代に[2][3]、大規模に蓄積される学術文献や論文等の管理をコンピュータ上で行うために、規模の大きい図書館でデータの管理と検索が行われるようになり、需要に応えるべく情報検索システムの開発が進んだ。図書館における蔵書検索や電子ジャーナル、統計資料のデータベースなどへの応用は現在でも盛んに用いられているほか、1990年代から広まったGoogleやgooのようなWorld Wide Web上のデータを対象にした検索エンジンが現在では情報検索のシステムとして特に身近な存在となっている。2000年代以降の情報検索の課題は、例として以下のようにまとめることができる。
- いわゆるDeep Web(ショッピングサイトなどに代表される、バックエンドの大規模なデータベースが動的なコンテンツを生成するウェブサイト)を対象にした検索
- より直観的なユーザインタフェース
- より人間に近い高度な判断尺度を持ったマルチメディア情報検索
- さまざまなメディアを統合的かつ横断的に扱うクロスメディア情報検索
- 格納されるデータや検索入力が言語に依存しないマルチリンガル(クロスリンガル)検索環境
- P2Pネットワーク等の大規模分散データを対象にした情報検索
情報検索システムの構成要素

情報検索システムは主に以下に挙げる要素によって構成されている。
- データベース
- 検索対象のデータ
- メタデータ(索引語)
- ユーザインタフェース
- 検索アルゴリズム
データベースは検索対象のデータを蓄積し、管理している。検索対象のデータからはメタデータが作成され、メタデータもデータベースに格納される。検索の利用者は検索語(検索文)をユーザインタフェースを通して検索を発行し、検索アルゴリズムが適切なデータをデータベースに格納されているメタデータから選択し、選択されたメタデータに対応する検索対象のデータをユーザインタフェースを通して利用者に返答する。
例えばウェブサイトの情報検索では、検索対象のデータが個々のウェブサイトの内容、メタデータがウェブサイトの内容の要約やキーワード・紹介文、ユーザーインターフェースと検索アルゴリズムが検索エンジンにあたる。検索エンジンは検索キーワードに一致するメタデータをデータベースから選択し、選択されたメタデータに対応する検索対象のデータを検索結果に表示する。
情報検索システム構築の手続き
情報検索システムの構築は以下のフェーズを経て行われる。順序は必ずしも一定ではなく、構築するシステムの内容や外的環境によって異なる。
検索対象データ収集
検索の対象とするデータの収集方針を決定する。World Wide Web上のハイパーテキストを収集して対象とする場合にはクローラ(ロボット、スパイダー)を用いて自動的な収集を行うのが一般的であるが、天文学的数量の膨大なデータが存在し、かつ急激に変化するWorld Wide Webのデータを全て網羅して収集することは事実上不可能である。そのため、いかにして網羅的に多くの対象のデータを収集するかが重要な課題となっており、World Wide Web検索エンジンのサービスでは何ページのデータか検索が可能であるかが性能の指標の一つとなっている。
検索対象のデータからのメタデータ作成
検索対象のデータからのメタデータを作成する。メタデータの形式および作成方法は検索アルゴリズムやデータ収集の方針と密接に関連する。たとえばデータ収集が継続的かつ大規模に行われるような場合、人手を使ってメタデータを作成することはコストの大幅な増大を意味することになる。
検索アルゴリズムの設計
作成されたメタデータを用いてどのような計算を用いてデータを出力するか決定する。検索アルゴリズムの詳細についてはメタデータ生成法と情報検索アルゴリズムを参照。
検索性能の評価

情報検索システムの検索性能の評価を行う。情報検索システムの検索性能は主に正確性と網羅性の質的な観点から適合率(precision;精度ともいう)と再現率(recall)を、処理性能の量的な観点からスループットを測定することにより判定するのが一般的である。適合率は検索結果として得られた集合中にどれだけ検索に適合した文書を含んでいるかという正確性の指標であり、再現率は検索対象としている文書の中で検索結果として適合している文書(正解文書)のうちでどれだけの文書を検索できているかという網羅性の指標である。適合率は、
- 出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。
- 徳永健伸著 辻井潤一編 『情報検索と言語処理 言語と計算』 東京大学出版会、1999年。
- 北研二、津田和彦、獅々堀正幹著 『情報検索アルゴリズム』 共立出版、2002年。
- Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval, Addison Wesley, 1999.
脚注
- ^ 検索、三省堂大辞林
- ^ Charles T. Meadow (1967年). “The analysis of information Systems-a programmer's introduction to information retrieval.” (英語). John Wiley & Sons, Inc.. 2008年11月19日閲覧。
- ^ Charles T. Meadow(IBM社); 渡辺茂監, 高地高司・笹森勝之助訳 (1970年). “情報検索-検索言語・情報構成・ファイル処理”. 日本経営出版会. pp. 357p. 2008年11月19日閲覧。
- ^ 天気予報の性能を示すスレットスコアはF値に類似した指標である。
外部リンク
オープンソースの情報検索システムソフトウェア
主な学術団体
- 情報処理学会 情報基礎とアクセス技術(IFAT)研究会
- 情報処理学会 データベースシステム(DBS)研究会
- 電子情報通信学会 データ工学研究会
- ACM SIGIR: Special Interest Group on Information Retrieval
- ACM SIGMM: Special Interest Group on MultiMedia
- ACM SIGIR: Special Interest Group on Management of Data
その他
- Information retrievalのページへのリンク