robots.txt
robots.txtとは、Googleやgooなどのロボット型検索エンジンのクローラに対する指示を記述したファイルのことである。
クローラが各Webサイトを巡回(クローリング)する場合、まず、ターゲットとなるWebサイトのルートディレクトリにrobots.txtが配置されているかどうかを確認する。配置されていれば、そのファイルを読み込み、記述された内容に従って情報を収集していく。
robots.txtにディレクトリ名やクローラ名などを記述することで、情報を収集されないようにすることが可能になる。例えば、すべてのクローラに対して、すべてのファイルを収集して欲しくない場合には、1行目に「User-agent: *」、2行目に「Disallow: /」と記述する。また、クローラのアクセス頻度を制限したい場合には、「Crawl-delay:10」(アクセス間隔を10秒間に設定)のように記述する。
クローラに対する指示は、robots.txtを置くという方法の他にもmetaタグで記述する方法もある。
なお、robots.txtは、クローラに対しての強制力がないため、クローラの一部には、robots.txtの内容を無視してクローリングするところもある。
検索エンジン: | クローリング メタサーチ Open Directory Project robots.txt リアルタイム検索 リンクファーム リンクレピュテーション |
- ロボットテキストのページへのリンク