Webの収集
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/29 18:33 UTC 版)
Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。 Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシート、JavaScript、画像、ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。
※この「Webの収集」の解説は、「ウェブアーカイブ」の解説の一部です。
「Webの収集」を含む「ウェブアーカイブ」の記事については、「ウェブアーカイブ」の概要を参照ください。
- Webの収集のページへのリンク