Arcファイル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/04/08 16:34 UTC 版)
初期のHeritrixは(特に変更しなければ)収集したウェブ資料をArcファイルに保存していた。ここでいうArcファイルは汎用のアーカイブファイルフォーマットであるARCファイルとは無関係で、ウェブアーカイブのためにインターネット・アーカイブが1996年に設計したファイル形式のことである。その後、仕様がより精密で拡張性に優れるWARCファイルに保存するように変更され、現在に至る。Heritrixの設定を変更すればWgetのようにURLをディレクトリとファイル名に対応付けて保存することもできる。多数の小さいファイルを扱う煩雑さを避けるため、Arcファイルは複数のウェブ資料を単一のファイルにまとめて保存する。HTTPヘッダとレスポンス本体の前に資料の取得方法に関するメタデータをつけたものを一つのURLレコードとし、これを複数結合した形式である。Arcファイルの先頭には通称filedescと呼ばれる、Arcファイル全体に関するメタデータを記録した特別なレコードを配置する。これには以降に続くURLレコードのメタデータヘッダ行の形式の記述が含まれる。Arcファイルの大きさは通例100から600 MB程度である。 例: filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 761 1 InternetArchiveURL IP-address Archive-date Content-type Archive-lengthhttp://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187HTTP/1.1 200 OKDate: Thu, 22 Jun 2006 19:01:15 GMTServer: ApacheLast-Modified: Sat, 10 Jun 2006 22:33:11 GMTContent-Length: 30Content-Type: text/htmlHello World!!!
※この「Arcファイル」の解説は、「Heritrix」の解説の一部です。
「Arcファイル」を含む「Heritrix」の記事については、「Heritrix」の概要を参照ください。
- Arcファイルのページへのリンク