テキストファイル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/02/16 14:08 UTC 版)
テキストファイルの種類
テキストファイルは、次の点で分類される。
- 各行(レコード)が固定長か可変長か
- 文字コード
- 改行コード
固定長レコードと可変長レコード
メインフレーム/汎用機は多くの場合、固定長レコードファイルを扱うのが一般的であった。そのためメインフレーム/汎用機で使われるテキストファイルはすべての行(レコード)を同じ長さにするよう、長さが足りない場合には空白文字などで埋めるようになっている。
一方、UNIXやPCなどでは可変長の行(レコード)を扱うことができ、任意の位置に改行文字を挿入する。
文字コード
文字のうち、英数字を表す文字コードはほぼASCIIで統一されている。それ以外の、例えば日本語の漢字やかななどを表す文字コードはさまざまな種類があり、互換性を下げる要因となっている。
英数字
現在のPCや個人用モバイル端末などでは、テキストファイルで使われる文字コードのうち英数字を表すものは、ASCIIまたはASCII互換のものがほとんどである。そのため、英数字が文字化けすることはほとんどない。
なお、メインフレーム/汎用機などでは文字コードとしてEBCDICが使われることが多い。
英数以外の文字
英数以外の文字を表す文字コードはさまざまな種類があり、英数字の場合のように統一されていない。そのため、英数字以外の文字を含むテキストファイルは、英数字だけを含むテキストファイルに比べて互換性が低い。
また、英数以外の言語を表す文字はさまざまな文字コードが使われているため、英語をのぞく複数の言語の文字を混在させることは難しい。例えば、アルファベットと漢字・かな、アルファベットとアラビア文字が混在した文書はそれぞれ比較的容易に作成できるが、漢字・かなとアラビア文字が混在する文書の作成は難しい。
日本語の文字コード
日本語の漢字・かななどでは、文字コードの文字符号化方式として次の3種類が使われてきた。
文字符号化方式 | 使用環境 |
---|---|
ISO-2022-JP | インターネット(特に電子メール) |
Shift_JIS | MS-DOS・WindowsやMac OS(バージョン9まで) |
EUC-JP | UNIXやLinux |
そのため、漢字・かななどを含むテキストファイルを異なる環境で使う場合、文字化けなどの問題が発生しやすい。例えば、Linux上で作成した漢字・かなを含むテキストファイルをそのままWindows上で開くと、文字化けすることが多い。こうした問題を解決するには、複数の文字コードに対応するプログラムや、変換ツールが必要になる。
Unicode
Unicodeは、世界中のすべての文字を共通で扱えることを目指した、符号化文字集合の規格である。また、Unicodeの文字符号化方式としてUTF-8やUTF-16が利用されることが多い。
Unicodeが広く普及することで、英数字以外の文字を扱うときの互換性が高まり、また多言語の文字が混在する文書が容易に作成できるようになることが期待されている。
しかし現在では、Unicodeが普及途上ということもあり、文字コードに関する混乱が増している一面もある。漢字やかなの場合、UTF-8やUTF-16など文字符号化方式の種類が増えたため、文字化けなどの問題はより難しくなっている一面もある。
改行コード
テキストファイル内で用いられる改行を表すコードは、コンピュータの種類ごとに違いがあり、互換性を下げる要因となっている。いずれの場合においても、改行は制御文字LF(0x0A)と制御文字CR(0x0D)で表される。このうち、LF(Line Feed)は行送り、CR(Carriage Return)は復帰を表す。
コンピュータの種類 | 改行コード |
---|---|
MS-DOS・Windows | CR+LF |
UNIX | LF |
Mac OS(バージョン9まで) | CR |
例えばWindows上で作成したファイルをLinux上で開いた場合、改行コードの違いが原因で、各行の末尾に異常な文字が表示されることがある。
注釈
- ^ Microsoft Office 2007以降で採用されたOffice Open XML形式は、複数のXMLやメディアファイルをZIPでアーカイブしたものであり[3]、こちらもバイナリファイルであると言える。
出典
- ^ 用語集: Null 文字
- ^ Webサイトの文字コーディング、90%がUTF-8利用 - Shift JISは0.9% | TECH+(テックプラス)
- ^ Word文書に載っている画像をまとめて取り出す方法! ExcelやPowerPointでも使える裏技 - 残業を減らす!Officeテクニック - 窓の杜
- ^ バイナリー・データの処理 - IBM Documentation
- ^ XML シリアル化の詳細 | Microsoft Learn
- ^ ConfigurationManager.AppSettings Property (System.Configuration) | Microsoft Learn
- ^ Visual Studio Code User and Workspace Settings
- ^ “JSON editing in Visual Studio Code” (英語). Documentation for Visual Studio Code. 2023年10月7日閲覧。 “In addition to the default JSON mode following the JSON specification, VS Code also has a JSON with Comments (jsonc) mode. This mode is used for the VS Code configuration files such as settings.json, tasks.json, or launch.json.”
「テキストファイル」に関係したコラム
-
FX(外国為替証拠金取引)のチャート分析ソフトMT4(Meta Trader 4)のインディケーターとは、チャートを分析するためのテクニカル指標のことです。MT4のインディケーターには、罫線分析ツール...
FXのチャート分析ソフトMT4のインディケーターを提供しているWebサイトの一覧
FX(外国為替証拠金取引)のチャート分析ソフトMT4(Meta Trader 4)のインディケーターを提供しているWebサイトの一覧です。インディケーターのファイル形式は、「.mq4」、あるいは、「....
- テキストファイルのページへのリンク