ファイルフォーマット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/09/24 13:39 UTC 版)
概要
コンピュータにおいてメディア(文書、音声、画像、動画)やプログラムはファイルとして保存される。統一された順序・構造でこれらの情報がファイルとして保存されていれば、OSやアプリケーションは一貫した方法でファイルにアクセスし情報を利用できる。これを可能にする、ファイルへの情報格納規格がファイルフォーマット(ファイル形式)である。
通常「ファイルフォーマット」と呼ばれるが、MS-DOSやMicrosoft Windows、UNIX、Unix系などのオペレーティングシステムにおけるファイルはストリーミングデータ(データストリーム)形式であり、正確には「各ファイルに格納されたデータのフォーマット」の事である。
通常ファイルに格納されたデータは、テキストまたはバイナリファイルなので、ファイルの内容だけからはそのファイルフォーマットを知ることが困難な場合がある。このため、ファイル名に拡張子をつけて識別したり、ネットワークでの転送時にはMIMEヘッダ(メディアタイプ)等をあわせて送ったり、といった方法が採られる。このようなメタデータを付与する方法はファイルの内容自体に影響を与えず、またファイルを開くことなく種別を判定できる、という利点がある。しかし、拡張子は簡単に、しかも自由に編集できるため、信頼性は極めて低い。またMIMEタイプはIANAによって正式に登録・標準化されていない独自の文字列をアプリケーションやシステムが勝手に付与することもありうる。そのため、多くのファイルフォーマットは、ファイルの先頭にマジックナンバーと呼ばれる、より確実にファイル形式を識別するための情報を付加する。
さまざまなアプリケーションで扱える標準的なフォーマットもあるが、オペレーティングシステムやアプリケーションによりそのデータ形式は様々である。特定のアプリケーションで扱えるデータ形式に変換するためのファイルコンバータを利用できることがある。
データの区切りの単位に注目した分類
- bit(ビット)をデータの区切りの単位とするデータ。例:圧縮されたデータ
- byte(バイト、1byte = 8bit)を単位とするデータ。例:各種アプリケーションのデータファイル
- 文字を単位とするデータ。例:テキストファイル
テキストもバイナリの一種であるが、実際のビット列はエンコーディング時に採用する文字セットに左右される。テキストのデータストリームをデコードする際のヒントとして、ファイル先頭付近にバイト順マークや文字セット名を記載するフォーマットもある。
各種プログラミング言語のソースファイルも、構造化されたプレーンテキストファイルの一種である。
- ^ "ファイルは、その中身が意味する内容や目的によって、情報の記録の仕方が変わります。これを「ファイルフォーマット」(file format) と言います。" ファイルとディレクトリの概念. 京都産業大学 - コンピュータ・リテラシ. 2022-12-27閲覧.
- 1 ファイルフォーマットとは
- 2 ファイルフォーマットの概要
- 3 汎用性に注目した分類
- 4 脚注
- ファイルフォーマットのページへのリンク