WARC (ファイルフォーマット)
![]() | この項目「WARC (ファイルフォーマット)」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:英語版 "WARC (file format)" 2025年3月28日 (金) 22:00 (UTC)) 修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2025年4月) |
拡張子 | warc、warc.gz |
---|---|
MIMEタイプ | application/warc |
派生元 | ARC[1] |
国際標準 | ISO 28500:2017[2] |
ウェブサイト | iipc |
WARC(Web ARChive)とは、複数のデジタル資源を関連情報と共に1つの集合アーカイブファイルに統合する方法を規定するアーカイブフォーマットである。これらの統合された資源はWARCファイルとして保存され、ReplayWeb.pageなどの適切なソフトウェアを使用して再生できたり、ウェイバックマシンなどのアーカイブウェブサイトで使用できる。
WARCフォーマットは従来World Wide Webから収集された「ウェブクロール」をコンテンツブロックのシーケンスとして保存するために使用されていたインターネットアーカイブのARC_IAファイルフォーマット[3]の改訂版である。WARCフォーマットはアーカイビング団体の収集、アクセス、交換の需要をより適切にサポートするために古いフォーマットを一般化したものである。現在記録されている主なコンテンツに加えて、この改訂版では指定されたメタデータ、省略された重複検知イベント[注釈 1]、後日の変換記録など関連する二次コンテンツも収容できる[4]。WARCフォーマットはHTTP/1.0ストリームに触発されており、同様のヘッダーとCRLFを区切り文字として使用するので、クローラの実装に非常に適している。
2008年に最初に仕様が規定されたWARCは[5]、現在ではほとんどの国立図書館システムでウェブアーカイビングの標準として認められており[6]、一部の国立図書館システムではWACZも許容できるフォーマットとして挙げられ始めている[7][8]。
ソフトウェア
- ArchiveBox[9]
- ArchiveWeb.page[10]
- Apache Nutch
- Conifer[11]
- har2warc[12]
- Java製のHeritrixウェブアーカイバ
- libarchive
- ReplayWeb.page[13]
- Scoop[14]
- StormCrawler
- warcit
- wget(バージョン1.14から)[15]
脚注
注釈
- ^ §7.6「revisit」を参照。
出典
- ^ “Introduction”. SourceForge. 2015年3月5日閲覧。
- ^ “Information and documentation -- WARC file format”. 2018年3月16日閲覧。
- ^ “ARC_IA, Internet Archive ARC file format”. www.digitalpreservation.gov (2008年2月14日). 2015年5月9日閲覧。
- ^ “WARC, Web ARChive file format”. www.digitalpreservation.gov (2009年8月31日). 2015年5月9日閲覧。
- ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 July 2008). The WARC File Format 2021年4月29日閲覧。.
- ^ Allegrezza, Stefano (21 April 2016). “Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving”. Digitalia 2015: 49–61 .
- ^ “Web Archive Collection Zipped”. www.loc.gov (2023年5月19日). 2025年3月28日閲覧。
- ^ “Preferred file formats” (英語). digitalpreservation.no (2024年12月5日). 2025年3月28日閲覧。
- ^ “ArchiveBox” (英語). ArchiveBox. 2025年3月6日閲覧。
- ^ “ArchiveWeb.page • Webrecorder” (英語). Webrecorder (2025年1月10日). 2025年3月28日閲覧。
- ^ “Frequently Asked Questions” (英語). Conifer User Guide. 2025年3月27日閲覧。
- ^ webrecorder/har2warc, Webrecorder, (2025-01-25) 2025年3月28日閲覧。
- ^ “User Guide - Replay Webpage Docs”. replayweb.page. 2025年3月28日閲覧。
- ^ harvard-lil/scoop, Harvard Library Innovation Laboratory, (2025-03-26) 2025年3月28日閲覧。
- ^ Scrivano, Giuseppe (2012年8月6日). “GNU wget 1.14 released”. GNU wget 1.14 released. Free Software Foundation, Inc.. 2016年2月25日閲覧。
関連項目
外部リンク
Webarchive
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/07 17:40 UTC 版)
Webarchive(ウェブアーカイブ)は、macOSとWindowsのウェブブラウザSafariで使用される、ウェブページで利用されるファイルを1つのファイルにまとめるためのフォーマット[1]。内部的にはplist形式が利用されている。 Windows版Safariでのサポートは Safari 4 のベータ版から。モバイル環境では、iOS 13からSafariによる作成やファイル Appなどによる閲覧が可能である。
対応
- WebArchive Folderizer[2]や、WebArchive Extractor[3]といったフリーソフトを用いる。
- OS X 10.4(Tiger)から追加されたtextutilコマンド[4]を用いる。
- htmlファイルとそれに付随したファイルを単一のフォルダに保存したファイル+フォルダの構成を用いる。
競合
- MHTMLフォーマット
- Konquerorで用いられるWARフォーマット(tar+gzipまたはtar+bzip2)
注釈
出典
- ^ De-archive Web Archives
- ^ Bastion Products
- ^ Web Archive Extractor プロジェクト日本語トップページ - SourceForge.JP
- ^ textutil(1) Mac OS X Manual Page
外部リンク
「web Archive」の例文・使い方・用例・文例
- Web Archiveのページへのリンク