Sitemaps
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/11/28 01:47 UTC 版)
サイトマップがウェブサイトにおいて特に役立つ点は以下の点である:
- ブラウザに対するインタフェースを通じてたどり着けないようなサイト内の箇所を示すことができる。
- ウェブサイトが、AjaxやSilverlight、Flashといったリッチなコンテンツを使っているような場合、サーチエンジンでは通常処理できないため、この部分のコンテンツ内容へ誘導できる。
ウェブマスターは、サイト内の全URLを含むようなサイトマップを作成し、それをサーチエンジンに登録する。現在、Google, Bing, Yahoo, Askといったサーチエンジンがサイトマップ標準に対応しているため、サイトマップに対応すれば、事実上、主要なサーチエンジン群に更新ページ情報を伝えることができる。
サイトマップは通常のクロールによるページURL発見のメカニズムを補完するだけで、完全に置き換えるものではない。また、この標準に対応したからといって、サーチエンジンにそのページが登録されることを保証しておらず、また、検索結果におけるランキングでの扱いにも影響を与えるものでもない。
歴史
2005年6月にGoogleサーチエンジンが、ウェブ開発者がサイト内のリンクリストを発行できるツールとして、Sitemaps 0.84を最初に導入したSitemaps 0.84。2006年11月には、グーグル、MSN、Yahooの3社がサイトマッププロトコルの共通対応化を発表した[1]。スキーマバージョンは「Sitemaps 0.90」と変更されたが、内容面での変更はされなかった。
2007年4月、Ask.comとIBMもサイトマップ対応を発表した[2]。くわえて、Google, Yahoo, MSの3社がrobots.txtからのサイトマップファイルの自動検出のための方式を発表した。2007年5月、アリゾナ州、カリフォルニア州、ユタ州、バージニア州の州政府が各州政府サイトでサイトマップ利用を行うと発表した。
サイトマッププロトコルは「Crawler-friendly Web Servers」論文[1]におけるアイデアに基づいている[2]。
ファイル形式
サイトマッププロトコル形式はXML文書により提供される。ファイルの文字コードはUTF-8で符号化しなければならない。サイトマップはまた単純なURLをリストしたテキストファイルとしても構成される場合がある。また、これらのファイルは.gz形式で圧縮されたものとして提供される場合がある。
以下に、単一URLとオプション要素を含むサイトマップの例を示す:
<?xml version="1.0" encoding="utf-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
<url>
<loc>http://example.com/</loc>
<lastmod>2006-11-18</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
要素定義
サイトマッププロトコルにおいてつかわれるXML要素の定義を以下に示す[3]:
要素名 | 必須要素か? | 説明 |
---|---|---|
<urlset> | 必須 | サイトマップ文書全体を示す要素。'<?xml version>'に続くXML文書はこの要素内に置かれる必要がある。 |
<url> | 必須 | 各ページエントリを表現する要素。残りの要素はこの子要素となる。 |
<loc> | 必須 | ページの絶対URLを示す。URLにはプロトコル名(http, ftpなど)を含むスキーマ部や残りのパス名などを含む。URLの長さは2048文字以内でなければならない。 |
<lastmod> | オプション | ISO 8601によるファイルの最終更新日。YYYY-MM-DD形式のような日付形式または時刻付きの日時表記となる。 |
<changefreq> | オプション | ページの更新頻度を示す:
'Always'(常に)の場合、アクセスのたびに情報が更新されることを示す。 'Never'(更新されない)場合、アーカイブ等のURLで、ファイルが変化しないことを示す。 クローラー側での補助的指針に使われだけで、低頻度更新のコンテンツはインデックスしないといったことを決定するわけではないことに注意。 |
<priority> | オプション | このURLのサイト内での相対的な重要度を示す。ウェブマスター側からクローラーに対して、どのページが重要とみなしているかを伝えるためのもの。
0.0から1.0の範囲をとり、1.0が最重要であることを示す。デフォルト値は 0.5 となる。 サイト内のすべてのページに高い重要度を割り当てたとしても、検索結果には影響を与えることはできず、サイト内の他のページに比べての重要度をクローラに伝えるだけのものである。 |
必須要素以外のものにたいする対応状況はまちまちで、サーチエンジンごとに異なる[3]。
サイトマップ・インデックス
サイトマップXMLプロトコルを拡張して、「サイトマップ・インデックス」ファイルを通じて複数のサイトマップファイルを提供する方法もある。サイトマップファイルの最大サイズは10MBまたは5万URLとされており、これよりも巨大なサイトに対応するため、サイトマップ・インデックスが必要となった。サイトマップはサイトマップ・インデックスと同一のディレクトリに置かれる必要がある。サイトマップインデックスは、複数のサブドメインからなるようなウェブサイト群に対して用いることができ、各サブドメインのサイトマップをサイトマップインデックスにまとめ、robots.txtから参照しておくというような使い方ができる。
その他の形式
テキストファイル
サイトマッププロトコルでは、単なるURLリストをテキストファイルに書き連ねたものをサイトマップとして扱うこともできる。XMLによるサイトマップファイルの仕様がテキストファイルにも適用され、UTF-8文字コードや10MBまたは50,000 URLを超えられないといった制限はそのままであるが、gzip形式での圧縮が可能となる[3]。
フィード配信
フィード配信は追加URLをクローラーに伝えるひとつの方法であり、フィード配信にすでに対応しているサイトには扱いやすい方法でもある。この場合の欠点は、フィード配信ではクローラーには最近作成したURLしか伝えられず、残りのURLは通常のクローリング方法に頼る必要がある [3]。
- ^ O. Brandman, J. Cho, Hector Garcia-Molina, and Narayanan Shivakumar (2000). "Crawler-friendly web servers". Proceedings of ACM SIGMETRICS Performance Evaluation Review, Volume 28, Issue 2. doi:10.1145/362883.362894。
- ^ M.L. Nelson, J.A. Smith, del Campo, H. Van de Sompel, X. Liu (2006). "Efficient, Automated Web Resource Harvesting" (PDF). WIDM'06.
- ^ a b c d e Official protocol for XML Sitemaps
- 1 Sitemapsとは
- 2 Sitemapsの概要
- 3 サーチエンジンへの登録
- 4 サイトマップの制限
- Sitemapsのページへのリンク