クローラ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/10/11 13:24 UTC 版)
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。2022年2月) ( |
主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されている。近年では、電子メールアドレス収集業者などもクローラを利用してスパムの送信効率を上げている。
一般にクローラは、既知のHTML文書の新しいコピーを要求して文書中に含まれるリンクをたどり、別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録するほか、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
主なクローラ
- ManifoldCF (Apache)
- ダウンロードNinja(イーフロンティア、ダウンロード用ソフト(ダウンローダー))
- GetHTMLW - ダウンローダー
- Wget - ダウンローダー
- Octoparse
- Googlebot
関連項目
- 1 クローラとは
- 2 クローラの概要
- クローラのページへのリンク