Webarchiveとは - わかりやすく解説 Weblio辞書

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2025/04/07 17:40 UTC 版)

この項目では、Safariのwebarchiveについて説明しています。ウェブアーカイブ閲覧サービス「ウェイバックマシン」を運営する団体については「インターネットアーカイブ」を、Internet Explorerなどでのファイルフォーマットについては「MHTML」を、その他の用法については「ウェブアーカイブ (曖昧さ回避)」をご覧ください。

Webarchive（ウェブアーカイブ）は、macOSとWindowsのウェブブラウザSafariで使用される、ウェブページで利用されるファイルを1つのファイルにまとめるためのフォーマット^[1]。内部的にはplist形式が利用されている。 Windows版Safariでのサポートは Safari 4 のベータ版から。モバイル環境では、iOS 13からSafariによる作成やファイル Appなどによる閲覧が可能である。

対応

WebArchive Folderizer^[2]や、WebArchive Extractor^[3]といったフリーソフトを用いる。
OS X 10.4（Tiger）から追加されたtextutilコマンド^[4]を用いる。
htmlファイルとそれに付随したファイルを単一のフォルダに保存したファイル+フォルダの構成を用いる。

競合

MHTMLフォーマット
Konquerorで用いられるWARフォーマット(tar+gzipまたはtar+bzip2)

注釈

[脚注の使い方]

出典

外部リンク

ウェブブラウザ

比較（英語版）
歴史（英語版）
一覧
- UNIX対応（英語版）
年表
利用シェア

機能	アドブロックダウンロードマネージャ Cookies DNS over HTTPS DNSSEC Favicon ブックマークブックマークレットスマートブックマーク（英語版）ブラウザセキュリティ（英語版）プライバシーモードタブブラウザ拡張機能
ウェブ標準	Acidテスト CSS HTML HTML5 OCSP SVG XHTML WebGL WebSocket WebRTC XMLHttpRequest JavaScript MathML
関連項目	World Wide Web ウィジェットリッチインターネットアプリケーションインターネットスイートモバイルサイトオフラインリーダー（英語版） BrowserChoice.eu マン・イン・ザ・ブラウザ WPAD PAC HTTP HTTP/2 HTTP/3 HTTPS TLS/SSL セキュア通信 Tor VPN プロキシ HTTPの持続的接続 HTTPパイプライン SPDY ALPN XML CRL HTMLレンダリングエンジン推奨ブラウザネットサーフィン Webサーバブラウザ戦争フルブラウザネット検閲ディープ・パケット・インスペクションブロッキングコンテンツフィルタリングインターネット広告アドネットワークアクセス解析ウェブビーコンフィルターバブル SEO

デスクトップ

KHTML, WebKit, Blink
（Chromium系）

自由ソフトウェア（開発継続中）	Brave Braver Chromium Dooble（英語版） Iridium（オランダ語版） Konqueror Otter Browser Web
フリーウェア（開発継続中）	Avant Blisk Dragon（英語版） Craving Explorer2.x Chrome iCab Lunascape Maxthon Microsoft Edge(version 79以降) OmniWeb Opera (Version 15以降) Safari Sleipnir(version 4.0以降) SRWare Iron Vivaldi
（開発終了済）すべて▲	Arora Falkon Flock (Version 3.0以降) Fluid（英語版） rekonq RockMelt シイラ Origyn（英語版） Sputnik Swift Uzbl（英語版） WebPositive xombrero（英語版）

Gecko & Servo
（Firefox系）

（開発継続中）	Avant Basilisk（英語版） Epic（英語版） Firefox GNU IceCat LibreWolf Lunascape SlimBrowser SeaMonkey Tor Browser Waterfox Floorp Midori
（開発終了済）すべて▲	Beonex Communicator Camino Classilla Conkeror Flock (Version 2.6.1以前) Galeon Ghostzilla K-Meleon 風博士 Kirix Strata Lotus Symphony Mozilla Netscape Pale Moon（旧バージョン） Sleipnir（2.x系,3.x系のversionのみ） Timberwolf（英語版） xB Browser

Trident & EdgeHTML
（Edge, IE系）
（開発終了済）すべて▲

aiBrowser
AOL Explorer
Avant
Conqueror Browser
Craving Explorer1.x
Deepnet Explorer
Donut(RAPT,unDonut)
Grani
GreenBrowser
Internet Explorer
Lunascape
Maxthon
MenuBox
NeoPlanet
NetCaptor
MediaBrowser
Microsoft Edge(version 78以前)
Sleipnir(version 4.x系以前)
SpaceTime（英語版）
UltraBrowser
WebbIE
ZAC Browser

Presto

Opera (Version 12.18以前)▲

Goanna

Pale Moon

テキスト

ELinks
Emacs/W3▲
Line Mode Browser▲
Links
Lynx
Net-Tamer▲
w3m
ほぼテキストブラウザ▲
WannaBe（英語版）▲

その他

abaco（英語版）
Amaya
Arachne（英語版）▲
Arena（英語版）▲
Beaker（英語版）
Charon（英語版）
Dillo
EGBrowser▲
Gazelle
ホームページリーダー▲
Ladybird
IBrowse▲
KidZui
Mosaic-CK
Mothra（英語版）▲
NetPositive▲
NetSurf
Oregano（英語版）▲
NCSA Mosaic▲
WebBoy▲
Avast SafeZone Browser

モバイル

WebKit/Blink	Android標準ブラウザ▲ Brave Google Chrome for Android Google Chrome for iOS Dolphin Browser iCab Mobile iLunascape Microsoft Edge S60 web browser Onion Browser（IOS専用） Opera Mobile(version 14以降) Orion Browser（IOS専用） Safari Silk SRWare Iron (for Android) ニンテンドー3DSインターネットブラウザ Steel（英語版） BOLT（英語版） Opera Coast Espial HTML5 Browser
Gecko	Firefox for mobile iLunascape MicroB Minimo▲ Orfox（Android専用）▲ Tor Browser（version 8.5以降。Orfoxの後継でAndroid専用）
Trident/EdgeHTML	iLunascape Internet Explorer Mobile▲ Microsoft Edge（2020年まで）▲
Presto	ニンテンドーDSブラウザーニンテンドーDSiブラウザー Opera Mobile(version 12以前)
その他	Blazer（英語版） Deepfish▲ Galio▲ ibisBrowser Iris Browser Konqueror Embedded NetFront Obigo Browser Opera Mini Skweezer Skyfire（英語版） Teashark ThunderHawk（英語版） UC Browser uZard Web Vision WinWAP Smooz

テレビ · ゲーム機

WebKit/Blink	Google TV NetFront Browser NX Steam overlay Espial HTML5 Browser Amazon Silk
Gecko	Kylo（英語版）
Presto	インターネットチャンネル
その他	Galio▲ MSN TV (WebTV) NetFront

▲印のブラウザは開発終了

(Webarchive から転送)

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2026/05/05 15:15 UTC 版)

「ARC (ファイルフォーマット)（英語版）」あるいは「WAR (アーカイバ)」とは異なります。

その他の用法については「ウェブアーカイブ (曖昧さ回避)」をご覧ください。

この項目「WARC (ファイルフォーマット)」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。（原文：英語版 "WARC (file format)" 2025年3月28日 (金) 22:00 (UTC)）
修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。（2025年4月）

Web ARChive
拡張子	warc
MIMEタイプ	application/warc
派生元	ARC^[1]
国際標準	ISO 28500:2017^[2]
ウェブサイト	iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1-annotated/
テンプレートを表示

WARC（Web ARChive）とは、複数のデジタル資源を関連情報と共に1つの集合アーカイブファイルに統合する方法を規定するアーカイブフォーマットである。これらの統合された資源はWARCファイルとして保存され、ReplayWeb.pageなどの適切なソフトウェアを使用して再生できたり、ウェイバックマシンなどのアーカイブウェブサイトで使用できる。

WARCフォーマットは従来World Wide Webから収集された「ウェブクロール」をコンテンツブロックのシーケンスとして保存するために使用されていたインターネットアーカイブのARC_IAファイルフォーマット^[3]の改訂版である。WARCフォーマットはアーカイビング団体の収集、アクセス、交換の需要をより適切にサポートするために古いフォーマットを一般化したものである。現在記録されている主なコンテンツに加えて、この改訂版では指定されたメタデータ、省略された重複検知イベント^{[注釈 1]}、後日の変換記録など関連する二次コンテンツも収容できる^[4]。WARCフォーマットはHTTP/1.0ストリームに触発されており、同様のヘッダーとCRLFを区切り文字として使用するので、クローラの実装に非常に適している。

2008年に最初に仕様が規定されたWARCは^[5]、現在ではほとんどの国立図書館システムでウェブアーカイビングの標準として認められており^[6]、一部の国立図書館システムではWACZも許容できるフォーマットとして挙げられ始めている^[7]^[8]。

ソフトウェア

脚注

[脚注の使い方]

注釈

↑ §7.6「revisit」を参照。

出典

↑ “Introduction”. SourceForge. 2015年3月5日閲覧。
↑ “Information and documentation -- WARC file format”. 2018年3月16日閲覧。
↑ “ARC_IA, Internet Archive ARC file format”. www.digitalpreservation.gov (2008年2月14日). 2015年5月9日閲覧。
↑ “WARC, Web ARChive file format”. www.digitalpreservation.gov (2009年8月31日). 2015年5月9日閲覧。
↑ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 July 2008). The WARC File Format 2021年4月29日閲覧。.
↑ Allegrezza, Stefano (21 April 2016). “Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving”. Digitalia 2015: 49–61.
↑ “Web Archive Collection Zipped”. www.loc.gov (2023年5月19日). 2025年3月28日閲覧。
↑ “Preferred file formats” (英語). digitalpreservation.no (2024年12月5日). 2025年3月28日閲覧。
↑ “ArchiveBox” (英語). ArchiveBox. 2025年3月6日閲覧。
↑ “ArchiveWeb.page • Webrecorder” (英語). Webrecorder (2025年1月10日). 2025年3月28日閲覧。
↑ “Frequently Asked Questions” (英語). Conifer User Guide. 2025年3月27日閲覧。
↑ webrecorder/har2warc, Webrecorder, (2025-01-25) 2025年3月28日閲覧。
↑ “User Guide - Replay Webpage Docs”. replayweb.page. 2025年3月28日閲覧。
↑ harvard-lil/scoop, Harvard Library Innovation Laboratory, (2025-03-26), https://github.com/harvard-lil/scoop 2025年3月28日閲覧。
↑ Scrivano, Giuseppe (2012年8月6日). “GNU wget 1.14 released”. GNU wget 1.14 released. Free Software Foundation, Inc.. 2016年2月25日閲覧。
↑ “WebsiteArchiver - 保存と整理”. websitearchiver.net. 2026年5月5日閲覧。

外部リンク

WARC File Format specifications - ウェイバックマシン（2023年11月8日アーカイブ分）（英語）
The WARC File Format (ISO 28500) - Information, Maintenance, Drafts （英語）
WARC, Web ARChive file format （英語）
WARC implementation guidelines （英語）
Welcome （英語）
13. Internet Archive ARC files （英語）
The WARC Ecosystem （英語）

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

表話編歴アーカイブファイルフォーマット（比較）
アーカイブのみ	ar AXF BagIt（英語版） cpio LBR（英語版） shar（英語版） tar WAD WARC
圧縮のみ	Brotli bzip2 compress gzip LZMA LZ4 lzip lzop SQ（英語版） xz Zstandard pack
アーカイブおよび圧縮	7z ACE ARC（英語版） ARJ B1（英語版） Cabinet cfs（英語版） cpt dar（英語版） DGCA .dmg .egg（英語版） GCA kgb（英語版） LHA LZX MPQ（英語版） PEA .qda RAR rzip（英語版） sit SQX（英語版） UDA（PAQ/UDA） Xar（英語版） zoo ZIP ZPAQ
ソフトウェアパッケージ	pkg (SVR4) deb pkg (macOS) RPM RUNZ MSI JAR WAR RAR (Java) EAR XPI
文書パッケージ	OEB Package Format OEBPS Container Format (EPUB) Open Packaging Conventions Office Open XML

(Webarchive から転送)

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2026/05/18 20:30 UTC 版)

この項目では、ウェブページを収集する行為について説明しています。ウェブアーカイブ閲覧サービス「ウェイバックマシン」を運営する団体については「インターネットアーカイブ」を、その他の用法については「ウェブアーカイブ (曖昧さ回避)」をご覧ください。

記事編集時にウェブページを出典で使う場合の案内については「Wikipedia:出典を明記する#ウェブサイトを出典とする場合」を、アーカイブしたウェブページをWikipediaでリンクするテンプレートについては「Template:ウェブアーカイブ」をご覧ください。

ウェブアーカイブ (web archive) は、WWW（web、ウェブ）全体もしくはその一部を収集し、そのコレクションを後世の研究者、歴史家、一般大衆のために保存して、アーカイブとしたもの。

ウェブのサイズは膨大であるため、ウェブアーカイブではクローラを使って自動収集を行う。最大規模のウェブアーカイブ機関は、ウェブ全体のアーカイブ作成を自動・手動の両面で行っているアメリカの非営利団体「インターネットアーカイブ」(Internet Archive) である。

各国の国立図書館もまた文化的に重要なウェブコンテンツを保存しようとしており、フランスでは2001年にウェブページのウェブアーカイブ化を義務化する法律が成立した^[1]。2003年7月には、世界各国の国立図書館等が連携してウェブアーカイブの技術開発を行うための国際コンソーシアムとして、国際インターネット保存コンソーシアム (IIPC) が設立されている^[2]。

2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業、「国立国会図書館インターネット資料収集保存事業」（WARP、2010年にこれに名称変更）が始まった。

Webの収集

Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がウェブブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。

Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシート、JavaScript、画像、ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。

アーカイビングの難しさと限界

Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。

Robots Exclusion Protocolによりクローラはウェブサイトの一部へのアクセスが拒否されることがある。
ウェブサイトの大部分がDeep Webとして隠れた領域となっていることもある。例えば、フォームの先にあるはずの結果ページなどは、クローラはリンクを辿って行き着くことができないためDeep Webの領域となってしまう。
ウェブサーバーの中にはクローラに対して通常のWebブラウザに対するのとは別のページ内容を返すことがある。これはサーチエンジンを騙してサイトへのトラフィックを増やそうとする際に行われる手法の一つでもある。
クローラ・トラップが、クローラにページを無限に延々とダウンロードさせることがある（例えば、カレンダーなど）。このためクローラは通常、動的ページのダウンロード数の上限を設定されている。

Webは非常に巨大なため、その大部分を収集するには相当な計算機資源を必要とする。また、Web自体の内容の変化も速いため、サイト全体をクローラが収集する前にその内容が変わってしまうことさえある。

Webアーカイブが対処しなければならないのは技術的な側面だけではなく、知的財産権といった法的、社会的側面もある。Peter Lyman (2002)は「Webは一般にパブリックドメインのソースのように見られているが、これは著作権付きの情報である。従って、アーキビストはWebをコピーする法的権利を保持していない」と述べている。「インターネットアーカイブ」のようにアーカイブしたコンテンツを一般に公開しているアーカイブの中には、コンテンツの所有者が一般公開を希望しない場合には、アーカイブしたコンテンツを公開から外したり、削除できるようにしているところもある。また、特定の場所からのみアクセス可能にしたり、特定の決められた利用法でのみアクセス可能にしたりしているアーカイブもある。

手動によるアーカイビング

「インターネットアーカイブ」のようなアーカイブサイトは、ロボット（クローラ）が自動でサイトを片っ端からかき集めている一方、利用者が手動で任意のサイトを保存する機能もある。手動保存はURLを指定することで行われる。

手動保存専用のアーカイブサイトとしては「ウェブ魚拓」、日本国外での例としては「WebCite」、「archive.today（以前の名称 archive.is）」がある。

脚注

[脚注の使い方]

出典

↑ コーネル大学図書館 (2013年). “Digital Preservation and Technology Timeline”. Digital Preservation Management. 2012年3月31日時点のオリジナルよりアーカイブ。2016年3月6日閲覧。
↑ “International Internet Preservation Consortium (IIPC)”. 国立国会図書館インターネット資料収集保存事業. 2023年2月2日閲覧。

参考文献

Day, M. (2003). “Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives”. Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL): 461-472.
Lyman, P. (2002). “Archiving the World Wide Web”. Building a National Strategy for Preservation: Issues in Digital Media Archiving.

外部リンク

典拠管理データベース
全般	FAST
国立図書館	アメリカ日本チェコイスラエル


	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアのWebarchive (改訂履歴)、WARC (ファイルフォーマット) (改訂履歴)、ウェブアーカイブ (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
TANAKA Corpus	Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います： Creative Commons Attribution (CC-BY) 2.0 France.
京大-NICT 日英中基本文データ	この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
	Copyright © 1995-2026 Hamajima Shoten, Publishers. All rights reserved.
	Copyright © Benesse Holdings, Inc. All rights reserved.
	Copyright (c) 1995-2026 Kenkyusha Co., Ltd. All rights reserved.
	日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved. WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
	Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved. 「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
	This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

Webarchiveとは？わかりやすく解説

Webarchive

対応

競合

注釈

出典

外部リンク

WARC (ファイルフォーマット)

ソフトウェア

脚注

注釈

出典

関連項目

外部リンク

ウェブアーカイブ

Webの収集

アーカイビングの難しさと限界

手動によるアーカイビング

脚注

出典

参考文献

関連項目

外部リンク

「web Archive」の例文・使い方・用例・文例

英和和英テキスト翻訳

「Webarchive」の関連用語

Webarchiveとは？ わかりやすく解説

Webarchive

対応

競合

注釈

出典

外部リンク

WARC (ファイルフォーマット)

ソフトウェア

脚注

注釈

出典

関連項目

外部リンク

ウェブアーカイブ

Webの収集

アーカイビングの難しさと限界

手動によるアーカイビング

脚注

出典

参考文献

関連項目

外部リンク

「web Archive」の例文・使い方・用例・文例

英和和英テキスト翻訳

「Webarchive」の関連用語

Webarchiveとは？わかりやすく解説