robots.txt
robots.txtとは、Googleやgooなどのロボット型検索エンジンのクローラに対する指示を記述したファイルのことである。
クローラが各Webサイトを巡回(クローリング)する場合、まず、ターゲットとなるWebサイトのルートディレクトリにrobots.txtが配置されているかどうかを確認する。配置されていれば、そのファイルを読み込み、記述された内容に従って情報を収集していく。
robots.txtにディレクトリ名やクローラ名などを記述することで、情報を収集されないようにすることが可能になる。例えば、すべてのクローラに対して、すべてのファイルを収集して欲しくない場合には、1行目に「User-agent: *」、2行目に「Disallow: /」と記述する。また、クローラのアクセス頻度を制限したい場合には、「Crawl-delay:10」(アクセス間隔を10秒間に設定)のように記述する。
クローラに対する指示は、robots.txtを置くという方法の他にもmetaタグで記述する方法もある。
なお、robots.txtは、クローラに対しての強制力がないため、クローラの一部には、robots.txtの内容を無視してクローリングするところもある。
検索エンジン: | クローリング メタサーチ Open Directory Project robots.txt リアルタイム検索 リンクファーム リンクレピュテーション |
Robots Exclusion Standard
(robots.txt から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/06/06 12:46 UTC 版)
Robots Exclusion Standard(RES) または Robots Exclusion Protocol は、クローラやボットがウェブサイト全体またはその一部を走査することを防ぐ規約である。ロボット排除規約、robots.txt プロトコルとも呼ばれる。こういったボットは検索エンジンがウェブサイトの内容を分類しアーカイブするために主に使ったり、ウェブマスターがソースコードを校正するために使ったりする。直接の関係はないが、逆にボットを案内する目的のSitemapsと組み合わせて使うこともできる。
- ^ A Standard for Robot Exclusion
- ^ Information ACAP
- ^ 山本竜也 (2019年7月2日). “Google、REP(ロボット排除規約)のWEB標準化を推進へ”. Engadget 日本版. 2022年2月19日時点のオリジナルよりアーカイブ。2020年8月4日閲覧。
- ^ Koster, Martijn (2022年9月9日). “RFC [https://datatracker.ietf.org/doc/html/rfc9309 9309: Robots Exclusion Protocol]” (英語). IETF Datatracker. 2022年12月8日閲覧。
- ^ “How can I reduce the number of requests you make on my web site?”. Yahoo! Slurp. 2007年3月31日閲覧。
- ^ “MSNBot が Web サイトをクロールする回数が多すぎる”. MSNBot および Web サイトのクロールに関する問題に対処する. 2010年9月23日閲覧。
- ^ “About Ask.com: Webmasters”. 2010年9月23日閲覧。
- ^ “Googleウェブマスターセントラル - robots.txt ファイルを使用してページをブロックまたは削除する”. 2007年11月20日閲覧。
- ^ “How do I prevent my site or certain subdirectories from being crawled? - Yahoo Search Help”. 2007年11月20日閲覧。
- ^ “Robots Exclusion Protocol - joining together to provide better documentation”. 2009年12月3日閲覧。
- ^ “Yahoo! Search Blog - Webmasters can now auto-discover with Sitemaps”. 2009年3月23日閲覧。
- 1 Robots Exclusion Standardとは
- 2 Robots Exclusion Standardの概要
- 3 欠点
- 4 拡張規格
- robots.txtのページへのリンク