アーカイビングの難しさと限界
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/29 18:33 UTC 版)
「ウェブアーカイブ」の記事における「アーカイビングの難しさと限界」の解説
Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。 ロボット排除の取り決め(robots exclusion protocol)によりクローラはウェブサイトの一部へのアクセスが拒否されることがある。 ウェブサイトの大部分がDeep Webとして隠れた領域となっていることもある。例えば、フォームの先にあるはずの結果ページなどは、クローラはリンクを辿って行き着くことができないためDeep Webの領域となってしまう。 ウェブサーバーの中にはクローラに対して通常のWebブラウザに対するのとは別のページ内容を返すことがある。これはサーチエンジンを騙してサイトへのトラフィックを増やそうとする際に行われる手法の一つでもある。 クローラ・トラップが、クローラにページを無限に延々とダウンロードさせることがある(例えば、カレンダーなど)。このためクローラは通常、動的ページのダウンロード数の上限を設定されている。 Webは非常に巨大なため、その大部分を収集するには相当な計算機資源を必要とする。また、Web自体の内容の変化も速いため、サイト全体をクローラが収集する前にその内容が変わってしまうことさえある。 Webアーカイブが対処しなければならないのは技術的な側面だけではなく、知的財産権といった法的、社会的側面もある。Peter Lyman (2002)は「Webは一般にパブリックドメインのソースのように見られているが、これは著作権付きの情報である。従って、アーキビストはWebをコピーする法的権利を保持していない」と述べている。「インターネットアーカイブ」のようにアーカイブしたコンテンツを一般に公開しているアーカイブの中には、コンテンツの所有者が一般公開を希望しない場合には、アーカイブしたコンテンツを公開から外したり、削除できるようにしているところもある。また、特定の場所からのみアクセス可能にしたり、特定の決められた利用法でのみアクセス可能にしたりしているアーカイブもある。
※この「アーカイビングの難しさと限界」の解説は、「ウェブアーカイブ」の解説の一部です。
「アーカイビングの難しさと限界」を含む「ウェブアーカイブ」の記事については、「ウェブアーカイブ」の概要を参照ください。
- アーカイビングの難しさと限界のページへのリンク