Webarchive
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/07 17:40 UTC 版)
Webarchive(ウェブアーカイブ)は、macOSとWindowsのウェブブラウザSafariで使用される、ウェブページで利用されるファイルを1つのファイルにまとめるためのフォーマット[1]。内部的にはplist形式が利用されている。 Windows版Safariでのサポートは Safari 4 のベータ版から。モバイル環境では、iOS 13からSafariによる作成やファイル Appなどによる閲覧が可能である。
対応
- WebArchive Folderizer[2]や、WebArchive Extractor[3]といったフリーソフトを用いる。
- OS X 10.4(Tiger)から追加されたtextutilコマンド[4]を用いる。
- htmlファイルとそれに付随したファイルを単一のフォルダに保存したファイル+フォルダの構成を用いる。
競合
- MHTMLフォーマット
- Konquerorで用いられるWARフォーマット(tar+gzipまたはtar+bzip2)
注釈
出典
- ^ De-archive Web Archives
- ^ Bastion Products
- ^ Web Archive Extractor プロジェクト日本語トップページ - SourceForge.JP
- ^ textutil(1) Mac OS X Manual Page
外部リンク
WARC (ファイルフォーマット)
(Webarchive から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/07 18:12 UTC 版)
![]() |
この項目「WARC (ファイルフォーマット)」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:英語版 "WARC (file format)" 2025年3月28日 (金) 22:00 (UTC))
修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2025年4月) |
拡張子 | warc、warc.gz |
---|---|
MIMEタイプ | application/warc |
派生元 | ARC[1] |
国際標準 | ISO 28500:2017[2] |
ウェブサイト | iipc |
WARC(Web ARChive)とは、複数のデジタル資源を関連情報と共に1つの集合アーカイブファイルに統合する方法を規定するアーカイブフォーマットである。これらの統合された資源はWARCファイルとして保存され、ReplayWeb.pageなどの適切なソフトウェアを使用して再生できたり、ウェイバックマシンなどのアーカイブウェブサイトで使用できる。
WARCフォーマットは従来World Wide Webから収集された「ウェブクロール」をコンテンツブロックのシーケンスとして保存するために使用されていたインターネットアーカイブのARC_IAファイルフォーマット[3]の改訂版である。WARCフォーマットはアーカイビング団体の収集、アクセス、交換の需要をより適切にサポートするために古いフォーマットを一般化したものである。現在記録されている主なコンテンツに加えて、この改訂版では指定されたメタデータ、省略された重複検知イベント[注釈 1]、後日の変換記録など関連する二次コンテンツも収容できる[4]。WARCフォーマットはHTTP/1.0ストリームに触発されており、同様のヘッダーとCRLFを区切り文字として使用するので、クローラの実装に非常に適している。
2008年に最初に仕様が規定されたWARCは[5]、現在ではほとんどの国立図書館システムでウェブアーカイビングの標準として認められており[6]、一部の国立図書館システムではWACZも許容できるフォーマットとして挙げられ始めている[7][8]。
ソフトウェア
- ArchiveBox[9]
- ArchiveWeb.page[10]
- Apache Nutch
- Conifer[11]
- har2warc[12]
- Java製のHeritrixウェブアーカイバ
- libarchive
- ReplayWeb.page[13]
- Scoop[14]
- StormCrawler
- warcit
- wget(バージョン1.14から)[15]
脚注
注釈
- ^ §7.6「revisit」を参照。
出典
- ^ “Introduction”. SourceForge. 2015年3月5日閲覧。
- ^ “Information and documentation -- WARC file format”. 2018年3月16日閲覧。
- ^ “ARC_IA, Internet Archive ARC file format”. www.digitalpreservation.gov (2008年2月14日). 2015年5月9日閲覧。
- ^ “WARC, Web ARChive file format”. www.digitalpreservation.gov (2009年8月31日). 2015年5月9日閲覧。
- ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 July 2008). The WARC File Format 2021年4月29日閲覧。.
- ^ Allegrezza, Stefano (21 April 2016). “Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving”. Digitalia 2015: 49–61 .
- ^ “Web Archive Collection Zipped”. www.loc.gov (2023年5月19日). 2025年3月28日閲覧。
- ^ “Preferred file formats” (英語). digitalpreservation.no (2024年12月5日). 2025年3月28日閲覧。
- ^ “ArchiveBox” (英語). ArchiveBox. 2025年3月6日閲覧。
- ^ “ArchiveWeb.page • Webrecorder” (英語). Webrecorder (2025年1月10日). 2025年3月28日閲覧。
- ^ “Frequently Asked Questions” (英語). Conifer User Guide. 2025年3月27日閲覧。
- ^ webrecorder/har2warc, Webrecorder, (2025-01-25) 2025年3月28日閲覧。
- ^ “User Guide - Replay Webpage Docs”. replayweb.page. 2025年3月28日閲覧。
- ^ harvard-lil/scoop, Harvard Library Innovation Laboratory, (2025-03-26) 2025年3月28日閲覧。
- ^ Scrivano, Giuseppe (2012年8月6日). “GNU wget 1.14 released”. GNU wget 1.14 released. Free Software Foundation, Inc.. 2016年2月25日閲覧。
関連項目
外部リンク
ウェブアーカイブ
(Webarchive から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/11 09:30 UTC 版)
ウェブアーカイブ (web archive) は、WWW(web、ウェブ)全体もしくはその一部を収集し、そのコレクションを後世の研究者、歴史家、一般大衆のために保存して、アーカイブとしたもの。
ウェブのサイズは膨大であるため、ウェブアーカイブではクローラを使って自動収集を行う。最大規模のウェブアーカイブ機関は、ウェブ全体のアーカイブ作成を自動・手動の両面で行っているアメリカの非営利団体「インターネットアーカイブ」(Internet Archive) である。
各国の国立図書館もまた文化的に重要なウェブコンテンツを保存しようとしており、フランスでは2001年にウェブページのウェブアーカイブ化を義務化する法律が成立した[1]。2003年7月には、世界各国の国立図書館等が連携してウェブアーカイブの技術開発を行うための国際コンソーシアムとして、国際インターネット保存コンソーシアム (IIPC) が設立されている[2]。
2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業、「国立国会図書館インターネット資料収集保存事業」(WARP、2010年にこれに名称変更)が始まった。
Webの収集
Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がウェブブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。
Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシート、JavaScript、画像、ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。
アーカイビングの難しさと限界
Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。
- Robots Exclusion Protocolによりクローラはウェブサイトの一部へのアクセスが拒否されることがある。
- ウェブサイトの大部分がDeep Webとして隠れた領域となっていることもある。例えば、フォームの先にあるはずの結果ページなどは、クローラはリンクを辿って行き着くことができないためDeep Webの領域となってしまう。
- ウェブサーバーの中にはクローラに対して通常のWebブラウザに対するのとは別のページ内容を返すことがある。これはサーチエンジンを騙してサイトへのトラフィックを増やそうとする際に行われる手法の一つでもある。
- クローラ・トラップが、クローラにページを無限に延々とダウンロードさせることがある(例えば、カレンダーなど)。このためクローラは通常、動的ページのダウンロード数の上限を設定されている。
Webは非常に巨大なため、その大部分を収集するには相当な計算機資源を必要とする。また、Web自体の内容の変化も速いため、サイト全体をクローラが収集する前にその内容が変わってしまうことさえある。
Webアーカイブが対処しなければならないのは技術的な側面だけではなく、知的財産権といった法的、社会的側面もある。Peter Lyman (2002)は「Webは一般にパブリックドメインのソースのように見られているが、これは著作権付きの情報である。従って、アーキビストはWebをコピーする法的権利を保持していない」と述べている。「インターネットアーカイブ」のようにアーカイブしたコンテンツを一般に公開しているアーカイブの中には、コンテンツの所有者が一般公開を希望しない場合には、アーカイブしたコンテンツを公開から外したり、削除できるようにしているところもある。また、特定の場所からのみアクセス可能にしたり、特定の決められた利用法でのみアクセス可能にしたりしているアーカイブもある。
手動によるアーカイビング
「インターネットアーカイブ」のようなアーカイブサイトは、ロボット(クローラ)が自動でサイトを片っ端からかき集めている一方、利用者が手動で任意のサイトを保存する機能もある。手動保存はURLを指定することで行われる。
手動保存専用のアーカイブサイトとしては「ウェブ魚拓」、日本国外での例としては「WebCite」、「archive.today(以前の名称 archive.is)」がある。
脚注
出典
- ^ コーネル大学図書館 (2013年). “Digital Preservation and Technology Timeline”. Digital Preservation Management. 2012年3月31日時点のオリジナルよりアーカイブ。2016年3月6日閲覧。
- ^ “International Internet Preservation Consortium (IIPC)”. 国立国会図書館インターネット資料収集保存事業. 2023年2月2日閲覧。
参考文献
- Day, M. (2003). “Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives”. Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL): 461-472 .
- Lyman, P. (2002). “Archiving the World Wide Web”. Building a National Strategy for Preservation: Issues in Digital Media Archiving .
関連項目
- アーカイブ
- w:List of Web archiving initiatives
- インターネットアーカイブ - ウェブアーカイブの閲覧サービス「ウェイバックマシン (Wayback Machine)」を提供している。
- archive.today
- ウェブ魚拓
- デジタル・タトゥー
- 国際インターネット保存コンソーシアム
- クローラ
- Heritrix - Internet Archiveのクローラ。
- GNU Wget - ダウンローダ。クローラとしての機能も持つ。
- HTTrack - GNUライセンスで公開されているWebクローラ。
- ウェブスクレイピング
外部リンク
「web Archive」の例文・使い方・用例・文例
- Webarchiveのページへのリンク