Web ARchiveとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > Web ARchiveの意味・解説 

WARC (ファイルフォーマット)

(Web ARchive から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/07 18:12 UTC 版)

Web ARChive
拡張子 warcwarc.gz
MIMEタイプ application/warc
派生元 ARC[1]
国際標準 ISO 28500:2017[2]
ウェブサイト iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1-annotated/

WARC(Web ARChive)とは、複数のデジタル資源を関連情報と共に1つの集合アーカイブファイルに統合する方法を規定するアーカイブフォーマットである。これらの統合された資源はWARCファイルとして保存され、ReplayWeb.pageなどの適切なソフトウェアを使用して再生できたり、ウェイバックマシンなどのアーカイブウェブサイトで使用できる。

WARCフォーマットは従来World Wide Webから収集された「ウェブクロール」をコンテンツブロックのシーケンスとして保存するために使用されていたインターネットアーカイブARC_IAファイルフォーマット[3]の改訂版である。WARCフォーマットはアーカイビング団体の収集、アクセス、交換の需要をより適切にサポートするために古いフォーマットを一般化したものである。現在記録されている主なコンテンツに加えて、この改訂版では指定されたメタデータ、省略された重複検知イベント[注釈 1]、後日の変換記録など関連する二次コンテンツも収容できる[4]。WARCフォーマットはHTTP/1.0ストリームに触発されており、同様のヘッダーとCRLFを区切り文字として使用するので、クローラの実装に非常に適している。

2008年に最初に仕様が規定されたWARCは[5]、現在ではほとんどの国立図書館システムでウェブアーカイビングの標準として認められており[6]、一部の国立図書館システムではWACZも許容できるフォーマットとして挙げられ始めている[7][8]

ソフトウェア

脚注

注釈

  1. ^ §7.6「revisit」を参照。

出典

  1. ^ Introduction”. SourceForge. 2015年3月5日閲覧。
  2. ^ Information and documentation -- WARC file format”. 2018年3月16日閲覧。
  3. ^ ARC_IA, Internet Archive ARC file format”. www.digitalpreservation.gov (2008年2月14日). 2015年5月9日閲覧。
  4. ^ WARC, Web ARChive file format”. www.digitalpreservation.gov (2009年8月31日). 2015年5月9日閲覧。
  5. ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 July 2008). The WARC File Format. https://tools.ietf.org/html/draft-kunze-warc-00 2021年4月29日閲覧。. 
  6. ^ Allegrezza, Stefano (21 April 2016). “Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving”. Digitalia 2015: 49–61. http://digitalia.sbn.it/article/view/1473. 
  7. ^ Web Archive Collection Zipped”. www.loc.gov (2023年5月19日). 2025年3月28日閲覧。
  8. ^ Preferred file formats” (英語). digitalpreservation.no (2024年12月5日). 2025年3月28日閲覧。
  9. ^ ArchiveBox” (英語). ArchiveBox. 2025年3月6日閲覧。
  10. ^ ArchiveWeb.page • Webrecorder” (英語). Webrecorder (2025年1月10日). 2025年3月28日閲覧。
  11. ^ Frequently Asked Questions” (英語). Conifer User Guide. 2025年3月27日閲覧。
  12. ^ webrecorder/har2warc, Webrecorder, (2025-01-25), https://github.com/webrecorder/har2warc 2025年3月28日閲覧。 
  13. ^ User Guide - Replay Webpage Docs”. replayweb.page. 2025年3月28日閲覧。
  14. ^ harvard-lil/scoop, Harvard Library Innovation Laboratory, (2025-03-26), https://github.com/harvard-lil/scoop 2025年3月28日閲覧。 
  15. ^ Scrivano, Giuseppe (2012年8月6日). “GNU wget 1.14 released”. GNU wget 1.14 released. Free Software Foundation, Inc.. 2016年2月25日閲覧。

関連項目

外部リンク


Webarchive

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/07 17:40 UTC 版)

Webarchive(ウェブアーカイブ)は、macOSWindowsのウェブブラウザSafariで使用される、ウェブページで利用されるファイルを1つのファイルにまとめるためのフォーマット[1]。内部的にはplist形式が利用されている。 Windows版Safariでのサポートは Safari 4 のベータ版から。モバイル環境では、iOS 13からSafariによる作成やファイル Appなどによる閲覧が可能である。

対応

  • WebArchive Folderizer[2]や、WebArchive Extractor[3]といったフリーソフトを用いる。
  • OS X 10.4(Tiger)から追加されたtextutilコマンド[4]を用いる。
  • htmlファイルとそれに付随したファイルを単一のフォルダに保存したファイル+フォルダの構成を用いる。

競合

注釈

出典

  1. ^ De-archive Web Archives
  2. ^ Bastion Products
  3. ^ Web Archive Extractor プロジェクト日本語トップページ - SourceForge.JP
  4. ^ textutil(1) Mac OS X Manual Page

外部リンク


ウェブアーカイブ

(Web ARchive から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/11 09:30 UTC 版)

ウェブアーカイブ (web archive) は、WWW(web、ウェブ)全体もしくはその一部を収集し、そのコレクションを後世の研究者歴史家、一般大衆のために保存して、アーカイブとしたもの。

ウェブのサイズは膨大であるため、ウェブアーカイブではクローラを使って自動収集を行う。最大規模のウェブアーカイブ機関は、ウェブ全体のアーカイブ作成を自動手動の両面で行っているアメリカ非営利団体インターネットアーカイブ」(Internet Archive) である。

各国の国立図書館もまた文化的に重要なウェブコンテンツを保存しようとしており、フランスでは2001年にウェブページのウェブアーカイブ化を義務化する法律が成立した[1]。2003年7月には、世界各国の国立図書館等が連携してウェブアーカイブの技術開発を行うための国際コンソーシアムとして、国際インターネット保存コンソーシアム (IIPC) が設立されている[2]

2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業、「国立国会図書館インターネット資料収集保存事業」(WARP、2010年にこれに名称変更)が始まった。

Webの収集

Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がウェブブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。

Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシートJavaScript画像ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性同一性を確保できる。

アーカイビングの難しさと限界

Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。

  • Robots Exclusion Protocolによりクローラはウェブサイトの一部へのアクセスが拒否されることがある。
  • ウェブサイトの大部分がDeep Webとして隠れた領域となっていることもある。例えば、フォームの先にあるはずの結果ページなどは、クローラはリンクを辿って行き着くことができないためDeep Webの領域となってしまう。
  • ウェブサーバーの中にはクローラに対して通常のWebブラウザに対するのとは別のページ内容を返すことがある。これはサーチエンジンを騙してサイトへのトラフィックを増やそうとする際に行われる手法の一つでもある。
  • クローラ・トラップが、クローラにページを無限に延々とダウンロードさせることがある(例えば、カレンダーなど)。このためクローラは通常、動的ページのダウンロード数の上限を設定されている。

Webは非常に巨大なため、その大部分を収集するには相当な計算機資源を必要とする。また、Web自体の内容の変化も速いため、サイト全体をクローラが収集する前にその内容が変わってしまうことさえある。

Webアーカイブが対処しなければならないのは技術的な側面だけではなく、知的財産権といった法的、社会的側面もある。Peter Lyman (2002)は「Webは一般にパブリックドメインのソースのように見られているが、これは著作権付きの情報である。従って、アーキビストはWebをコピーする法的権利を保持していない」と述べている。「インターネットアーカイブ」のようにアーカイブしたコンテンツを一般に公開しているアーカイブの中には、コンテンツの所有者が一般公開を希望しない場合には、アーカイブしたコンテンツを公開から外したり、削除できるようにしているところもある。また、特定の場所からのみアクセス可能にしたり、特定の決められた利用法でのみアクセス可能にしたりしているアーカイブもある。

手動によるアーカイビング

「インターネットアーカイブ」のようなアーカイブサイトは、ロボット(クローラ)が自動でサイトを片っ端からかき集めている一方、利用者が手動で任意のサイトを保存する機能もある。手動保存はURLを指定することで行われる。

手動保存専用のアーカイブサイトとしては「ウェブ魚拓」、日本国外での例としては「WebCite」、「archive.today(以前の名称 archive.is)」がある。

脚注

出典

  1. ^ コーネル大学図書館 (2013年). “Digital Preservation and Technology Timeline”. Digital Preservation Management. 2012年3月31日時点のオリジナルよりアーカイブ。2016年3月6日閲覧。
  2. ^ International Internet Preservation Consortium (IIPC)”. 国立国会図書館インターネット資料収集保存事業. 2023年2月2日閲覧。

参考文献

関連項目

外部リンク


「web Archive」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Web ARchive」の関連用語

Web ARchiveのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Web ARchiveのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのWARC (ファイルフォーマット) (改訂履歴)、Webarchive (改訂履歴)、ウェブアーカイブ (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2025 GRAS Group, Inc.RSS