クローラ
【英】crawler, web crawler, search robot, searchbot
クローラとは、インターネット上のあらゆるWebサイトの情報を取得して、検索用データベース・インデックスを作成する自動巡回プログラムのことである。Webサイトを這う(クロールする)ことからこのような名称が付けられた。
クローラでは、WebサイトのHTMLに記載されているリンクをたどり、そのWebサイトがどのような内容なのか、どのような構造になっているのかなどを判断し、データベース化していく。クローラがアクセスできるファイル・情報はすべてデータベース化され、誰もが検索できるようになってしまうので、機密文書などに関してはアクセス権を設定するなどの注意が必要である。
近年では検索結果の上位に表示させるためのSEOとして、有名検索Webサイトのクローラの動きを特に意識したWebサイト構築が目立つようになってきている。
クローラ (くろーら)
クローラ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/02/18 04:49 UTC 版)
![]() | この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2022年2月) |
![]() | この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年11月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
クローラもしくはクローラー (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット」 (bot)、「スパイダー」、「ロボット」などとも呼ばれる。
主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されている。近年では、電子メールアドレス収集業者などもクローラを利用してスパムの送信効率を上げている。
一般にクローラは、既知のHTML文書の新しいコピーを要求して文書中に含まれるリンクをたどり、別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録するほか、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
主なクローラ
- ManifoldCF (Apache)
- ダウンロードNinja(イーフロンティア、ダウンロード用ソフト(ダウンローダー))
- GetHTMLW - ダウンローダー
- Wget - ダウンローダー
- Octoparse
- Googlebot
関連項目
クローラ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/08/11 10:14 UTC 版)
※この「クローラ」の解説は、「YaCy」の解説の一部です。
「クローラ」を含む「YaCy」の記事については、「YaCy」の概要を参照ください。
- クローラのページへのリンク