Web Archiveとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > Web Archiveの意味・解説 

WARC (ファイルフォーマット)

(Web Archive から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/07 18:12 UTC 版)

Web ARChive
拡張子warcwarc.gz
MIMEタイプapplication/warc
派生元ARC[1]
国際標準ISO 28500:2017[2]
ウェブサイトiipc.github.io/warc-specifications/specifications/warc-format/warc-1.1-annotated/

WARC(Web ARChive)とは、複数のデジタル資源を関連情報と共に1つの集合アーカイブファイルに統合する方法を規定するアーカイブフォーマットである。これらの統合された資源はWARCファイルとして保存され、ReplayWeb.pageなどの適切なソフトウェアを使用して再生できたり、ウェイバックマシンなどのアーカイブウェブサイトで使用できる。

WARCフォーマットは従来World Wide Webから収集された「ウェブクロール」をコンテンツブロックのシーケンスとして保存するために使用されていたインターネットアーカイブARC_IAファイルフォーマット[3]の改訂版である。WARCフォーマットはアーカイビング団体の収集、アクセス、交換の需要をより適切にサポートするために古いフォーマットを一般化したものである。現在記録されている主なコンテンツに加えて、この改訂版では指定されたメタデータ、省略された重複検知イベント[注釈 1]、後日の変換記録など関連する二次コンテンツも収容できる[4]。WARCフォーマットはHTTP/1.0ストリームに触発されており、同様のヘッダーとCRLFを区切り文字として使用するので、クローラの実装に非常に適している。

2008年に最初に仕様が規定されたWARCは[5]、現在ではほとんどの国立図書館システムでウェブアーカイビングの標準として認められており[6]、一部の国立図書館システムではWACZも許容できるフォーマットとして挙げられ始めている[7][8]

ソフトウェア

脚注

注釈

  1. ^ §7.6「revisit」を参照。

出典

  1. ^ Introduction”. SourceForge. 2015年3月5日閲覧。
  2. ^ Information and documentation -- WARC file format”. 2018年3月16日閲覧。
  3. ^ ARC_IA, Internet Archive ARC file format”. www.digitalpreservation.gov (2008年2月14日). 2015年5月9日閲覧。
  4. ^ WARC, Web ARChive file format”. www.digitalpreservation.gov (2009年8月31日). 2015年5月9日閲覧。
  5. ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 July 2008). The WARC File Format. https://tools.ietf.org/html/draft-kunze-warc-00 2021年4月29日閲覧。. 
  6. ^ Allegrezza, Stefano (21 April 2016). “Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving”. Digitalia 2015: 49–61. http://digitalia.sbn.it/article/view/1473. 
  7. ^ Web Archive Collection Zipped”. www.loc.gov (2023年5月19日). 2025年3月28日閲覧。
  8. ^ Preferred file formats” (英語). digitalpreservation.no (2024年12月5日). 2025年3月28日閲覧。
  9. ^ ArchiveBox” (英語). ArchiveBox. 2025年3月6日閲覧。
  10. ^ ArchiveWeb.page • Webrecorder” (英語). Webrecorder (2025年1月10日). 2025年3月28日閲覧。
  11. ^ Frequently Asked Questions” (英語). Conifer User Guide. 2025年3月27日閲覧。
  12. ^ webrecorder/har2warc, Webrecorder, (2025-01-25), https://github.com/webrecorder/har2warc 2025年3月28日閲覧。 
  13. ^ User Guide - Replay Webpage Docs”. replayweb.page. 2025年3月28日閲覧。
  14. ^ harvard-lil/scoop, Harvard Library Innovation Laboratory, (2025-03-26), https://github.com/harvard-lil/scoop 2025年3月28日閲覧。 
  15. ^ Scrivano, Giuseppe (2012年8月6日). “GNU wget 1.14 released”. GNU wget 1.14 released. Free Software Foundation, Inc.. 2016年2月25日閲覧。

関連項目

外部リンク


Webarchive

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/07 17:40 UTC 版)

Webarchive(ウェブアーカイブ)は、macOSWindowsのウェブブラウザSafariで使用される、ウェブページで利用されるファイルを1つのファイルにまとめるためのフォーマット[1]。内部的にはplist形式が利用されている。 Windows版Safariでのサポートは Safari 4 のベータ版から。モバイル環境では、iOS 13からSafariによる作成やファイル Appなどによる閲覧が可能である。

対応

  • WebArchive Folderizer[2]や、WebArchive Extractor[3]といったフリーソフトを用いる。
  • OS X 10.4(Tiger)から追加されたtextutilコマンド[4]を用いる。
  • htmlファイルとそれに付随したファイルを単一のフォルダに保存したファイル+フォルダの構成を用いる。

競合

注釈

出典

  1. ^ De-archive Web Archives
  2. ^ Bastion Products
  3. ^ Web Archive Extractor プロジェクト日本語トップページ - SourceForge.JP
  4. ^ textutil(1) Mac OS X Manual Page

外部リンク


「web Archive」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Web Archive」の関連用語

Web Archiveのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Web Archiveのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのWARC (ファイルフォーマット) (改訂履歴)、Webarchive (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2025 GRAS Group, Inc.RSS