インターネットアーカイブ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/07/11 07:38 UTC 版)
設立の理念
アーカイブは1996年にブリュースター・ケールによって設立された。公式サイトによれば、その使命は以下のとおりである:
大抵の社会はその文化、歴史遺産の保存を重視している。そのような資料が無ければ、文明はその成功または失敗から学ぶための手段も記憶も持てない。我等の文化は現在電子形態での資料を大量に生産している。アーカイブの使命は、これらの電子資料の保存を支援し、研究者・歴史家・学界のためのインターネットライブラリを構築することにある。アーカイブはアメリカ議会図書館やスミソニアン博物館などの他機関との恊働も行う。 — インターネットアーカイブ 公式サイト
人類の知識と遺産を保存してそのコレクションを公開するというその目標からか、アレクサンドリア図書館に例えられることもある。
ウェイバックマシン
![](https://weblio.hs.llnwd.net/e7/redirect?dictCode=WKPJA&url=https%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fcommons%2Fthumb%2F2%2F2b%2FInternet_Archive_-_Bibliotheca_Alexandrina.jpg%2F220px-Internet_Archive_-_Bibliotheca_Alexandrina.jpg)
ウェイバックマシン(Wayback Machine)[注 2]はインターネットアーカイブが保存するウェブアーカイブを閲覧することのできるサービスである。インターネットアーカイブのもっともよく知られたサービスの一つであり、ときに「インターネットアーカイブ」がウェイバックマシンと同義に使われることもある他、「ウェイバックマシン」がその背景のWebクローリングを含んだ意味で使われることもある。ウェイバックマシンを使えば、ウェブページが保存された時点の状態を閲覧することができ、また「Save Page」にURLを貼り付けることで、そのページをその場でインターネットアーカイブのウェブアーカイブに保存できる。インターネットアーカイブはウェイバックマシンの技術を「3次元インデックス」と呼んでいる。
ウェイバックマシンで閲覧可能なウェブアーカイブは、1996年のサービス開始当時はアレクサ・インターネットから提供されたデータが元であったが、インターネットアーカイブは2010年後半から独自の大規模Webクローリングを開始し、現在では自身で収集したデータが半分以上を占める。以前はデータ収集から公開まで半年から一年かかっていたが、独自のWebクローリングと2013年の技術革新により、数時間から一日で公開されるようになった。また「Save Page」で保存されたものは即時に閲覧可能である。
ウェイバックマシンが保持しているデータ量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点で1ペタバイトに達し、月に20テラバイトの割合で増加を続けている。2003年に報告された増加率は月あたり12テラバイトであったので、1年でおよそ倍の速度になった。これは、議会図書館など世界最大規模の図書館の文書量をはるかに上回るものである。そして2012年にはデータ総量は10ペタバイトを超えた[3]。保存されたウェブページ数[注 3]では、2022年10月現在で7400億を超え[5]、一か月あたりおよそ140億ページの割合で増加中である[5][6]。このデータのコピーは新アレクサンドリア図書館にも保存されている。
ウェイバックマシンの過去のページの再生表示は、様々な理由により不完全であることがある。例えば、アレクサ・インターネットから提供されるデータにはHTMLファイルしか含まれていないため、2010年以前のアーカイブはページの画像などが表示されないものが大半である。またWebクローリングの技術的制約により、Webページの再生に必要なデータ全てが収集されないことや、Webページの再生表示技術の制約などによりページ表示が正常に行われないことなどは、特に最近の高度に動的なWebページではよく見られる。また、ウェブページを構成するスクリプトや画像などの部品はページのHTMLと同時点で収集されたものとは限らず、1年以上の時間差があることも稀ではない。さらに、いったん収集されたWebアーカイブが、関係者の要請やrobots.txtの配置によりウェイバックマシンから取り除かれることもある。
「ウェイバックマシン」という名称は「ロッキーとブルウィンクルの大冒険」の一シーンからとられた。このアニメシリーズは学者風の蝶ネクタイをした犬のピーボディ先生と人間の助手シャーマンが「ウェイバックマシン(WABAC machine)」と呼ぶタイムマシンを使って歴史上の有名な事件にちょっかいを出すというコメディアニメである。
公的な保存とは別途、個人のレベルでも、特定の個人がインターネット上に運営していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュースなどに出てくるようになった。保険会社などが遺言の執行と合わせて、こうしたサービスを行っているようなものはないが、難病での闘病生活をおくった人のドキュメントやさまざまな公益的で共有すべき内容を持ったもの(人権、環境、社会問題、女性、健康と福祉、情報公開、特殊な個人的体験など)、オンラインソフトウェアの開発サイトなどが、関係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。
著作権
ウェイバックマシンは米国著作権法のフェアユース規定にもとづいてウェブアーカイブを構築している[7]。後述の「インドからのアクセス遮断」のようにフェアユースに該当するとは思えない情報(営利目的の情報など)の収集も行っているのが実態である。
著作権侵害によるインターネットアーカイブに対する訴訟
ウェイバックマシンは目的の性質上、フェアユースが成立しているが、2020年にアシェット、ハーパーコリンズ、ワイリー、ペンギン・ランダムハウスなどの出版社が著作権侵害によりインターネットアーカイブを提訴した[8][9]。
Recall サーチエンジン
またInternet Archiveのデータベース的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブページ全体を対象にした検索エンジン「Recall」のベータ版が公開された。検索した単語の頻度をグラフ化して表示する機能があり(2byte文字は未対応)、ネットワーク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開発者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォーラムでは新たな検索システムの構築を望む声が多くあがっており、動向が注目される。
アプリケーションプログラミングインタフェース
ウェイバックマシンはWebブラウザを使ったウェブアーカイブの閲覧だけでなく、アプリケーションプログラミングインタフェースも提供している[10]。2015年時点では、
- Wayback Availability JSON API
- Memento API
- Wayback CDX Server API
がある。
コレクション
動画、書籍、録音の多くがパブリックドメインにあるか、クリエイティブ・コモンズのライセンスで提供されている。音楽部門には、コンサートでの演奏の録音を許可しているアーティストや演奏家(グレイトフル・デッド、ストリング・チーズ・インシデント、トード・ザ・ウェット・スプロケット、311、fugaziなど)による音源とともに、独立系ミュージシャンの音源も数多く含まれている。
2020年11月, インターネットアーカイブではAdobe FlashのエミュレータとしてRuffleを導入し、Flashアニメーションやゲームのアーカイブを開始した。[11]
注釈
- ^ 中黒を入れた「インターネット・アーカイブ」という表記も見られるほか、日本語でも「Internet Archive」と表記することもある。たとえば、ともに国際インターネット保存コンソーシアムに加盟している国立国会図書館による紹介では表題では「Internet Archive」、本文では「インターネットアーカイブ」と表記しており、本文冒頭で"Internet Archive"を併記している[1]。また、同じく国立国会図書館による国際インターネット保存コンソーシアムの紹介では「インターネットアーカイブ」、「インターネット・アーカイブ」の両表記が混在している[2]。
- ^ a b 国立国会図書館による紹介ではカナ表記は使用しておらず、「Wayback Machine」と表記している[1]。
- ^ インターネットアーカイブではウェブページを、有効なHTMLドキュメント、プレーンテキスト、PDFと定義している。[4]
出典
- ^ a b “Internet Archive “Wayback Machine””. インターネット資料収集保存事業. 国立国会図書館 (2016年11月22日). 2017年8月9日閲覧。
- ^ “International Internet Preservation Consortium (IIPC)”. インターネット資料収集保存事業. 国立国会図書館 (2013年1月29日). 2017年8月9日閲覧。
- ^ “10,000,000,000,000,000 bytes archived!”. Internet Archive Blogs. Internet Archive. 2019年1月10日閲覧。
- ^ “Defining Web pages, Web sites and Web captures”. Internet Archive Blogs. Internet Archive (2016年10月23日). 2023年9月16日閲覧。
- ^ a b “Wayback Machine”. web.archive.org (2022年10月1日). 2022年10月18日閲覧。 “Explore more than 742 billion web pages saved over time(時間の経過とともに保存された7,420億を超えるWebページを探索する)”
- ^ “Wayback Machine”. web.archive.org (2022年9月1日). 2022年10月18日閲覧。 “Explore more than 728 billion web pages saved over time(時間の経過とともに保存された7,280億を超えるWebページを探索する)”
- ^ “Internet Archive “Wayback Machine””. 国立国会図書館インターネット資料収集保存事業. 国立国会図書館 (2016年11月22日). 2017年9月24日時点のオリジナルよりアーカイブ。2017年9月24日閲覧。
- ^ “出版社がInternet Archiveを提訴。オープンライブラリーで「故意に大量の著作権侵害」と主張 - Engadget 日本版”. Engadget JP. 2020年6月2日時点のオリジナルよりアーカイブ。2022年1月27日閲覧。
- ^ 株式会社インプレス (2020年6月4日). “Internet Archive、米国の複数の出版社から著作権侵害で訴えられる。その理由は【やじうまWatch】”. INTERNET Watch. 2022年1月27日閲覧。
- ^ “Wayback Machine APIs”. Internet Archive. 2019年1月10日閲覧。
- ^ Campbell, Ian Carlos (2020年11月19日). “The Internet Archive is now preserving Flash games and animations”. The Verge. 2020年11月20日時点のオリジナルよりアーカイブ。2020年11月19日閲覧。
- ^ “Net archive silences Scientology critic - CNET News”. CBS Interactive.. 2012年7月16日時点のオリジナルよりアーカイブ。2019年1月10日閲覧。
- ^ “Internet Archive Forums: exclusions from the Wayback Machine”. Internet Archive. 2019年1月10日閲覧。
- ^ “LawMeme - Sherman, Set the Wayback Machine for Scientology”. Yale University. 2006年4月24日時点のオリジナルよりアーカイブ。2019年1月10日閲覧。
- ^ Gelman, Lauren (2004年11月17日). “Internet Archive’s Web Page Snapshots Held Admissible as Evidence” (英語). The Center for Internet and Society. 2022年12月20日閲覧。
- ^ Wrath of Deadheads stalls Web crackdown, ニューヨーク・タイムズの記事(インターナショナル・ヘラルド・トリビューンサイト内)[リンク切れ]
- ^ Phil Lesh. “PhilLesh.net - Hotline”. 2012年2月20日時点のオリジナルよりアーカイブ。2019年1月10日閲覧。
- ^ “Internet Archive Forums: Good News and an Apology: GD on the Internet Archive”. Internet Archive. 2019年1月10日閲覧。
- ^ a b c Leo Kelion (2017年8月9日). “Bollywood blocks the Internet Archive”. BBC News (BBC) 2017年9月24日閲覧。
- ^ “The 'Internet Archive' was blocked on orders from Madras High Court”. tech2 (Firstpost). (2017年8月11日) 2017年9月24日閲覧。
- ^ “Sun puts Internet Archive in a box, but will it stay there?”. Ars Technica. 2019年1月10日閲覧。
- ^ “Internet Archive: Petabox”. Internet Archive. 2019年1月10日閲覧。
固有名詞の分類
- インターネットアーカイブのページへのリンク