plainTextとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > plainTextの意味・解説 

プレーンテキスト

(plainText から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/12/01 18:16 UTC 版)

プレーンテキスト: plain text)とは、コンピュータ上で文章を扱うための一般的なファイルフォーマット、または文字列テキスト)の形式である。テキスト形式データのうち、コンピュータに対する指示や付加情報などを含まず、見出しや文章など人間に意味のある文字のみで構成されるものを指す[1]。一般的に、拡張子が「.txt」のテキストファイルは、プレーンテキスト形式であることが期待される。

概要

狭義ではASCIIのみ、さらに厳密には7ビットASCIIで構成された文書だけを指すが、ISO/IEC 8859-1EUC-JP/Shift_JISのような各国の言語固有の文字コードあるいは国際標準規格のUnicodeなどで記述されたものも含める広義の用法が主流である[1]。一般的に、テキストファイルは文字コード0で表されるヌル文字を含まず、これがバイナリファイルとの違いの1つとして挙げられる。

ワードプロセッサ(ワープロ)アプリケーションの代表格であるMicrosoft Wordのドキュメント形式(.doc/.docxなど)や、PDF形式などとは違い、文字の色・サイズ・フォントといった装飾情報、レイアウト(組版)情報、図表・画像・音声・動画などといった高度なマルチメディア情報を含まない。プレーンテキストに対し、そのような付加情報を含む文章のことをマルチスタイルテキストと呼ぶ[要出典]。しかし、マルチスタイルテキストの一部も、ファイルフォーマットとしてはプレーンテキストのみで構成されているものもある。

プレーンテキストには文字情報以外の情報はいっさい含まれず、テキストデータのみで構成されている。バイナリデータや文字の装飾情報を持たないので、最低限の機能しか持たないテキストエディタや表示用のソフトウェアでも扱えるという点で利便性が高い。その反面、格納できる情報が純粋にテキストのみに限定されるため、装飾情報やマルチメディア情報を持つことができない。これらの情報を格納する場合には、HTMLのような工夫が必要になる。また、テキストのエンコーディング情報を持たないので、ファイルを開く際に自動推定または仮定する必要があるが、判断に利用できるテキスト情報量が少ないと自動推定に失敗して文字化けする可能性がある(判別しやすいように先頭にバイトオーダーマークが付加されているものもある)。とはいえ、現代的なパーソナルコンピュータ(パソコン、PC)に搭載されているオペレーティングシステム(OS)では、UTF-8形式のプレーンテキストの表示や編集に標準対応しているので、文字コードを仮定することに問題がなければ可搬性や交換性が高いフォーマットである。Windowsではメモ帳UNIXLinuxの場合はviEmacsmacOSの場合はテキストエディットなどといったOSに標準的に付属するソフトウェアで編集できる。なお、MS-DOSにはEDLINラインエディタ)やMS-DOS Editorが、Classic Mac OSにはSimpleTextが付属していたが、これらはUnicodeが普及する前のレガシー環境であり、日本語の場合はMicrosoftコードページ932MacJapaneseといったShift_JISから派生した独自拡張の文字コードが使われていた。

スマートフォンに標準搭載されているメモ系のアプリの保存データはプレーンテキストではなく、装飾情報などを含むことのできる独自の形式となっていることも多い。生のデータはベンダー各社で互換性がなく、異なる端末間でやりとりするには互換性のある形式でエクスポートする必要がある。ただし、コピー&ペースト機能を使用して、プレーンテキスト情報としてアプリ間でデータのやりとりをすることはできる。

プレーンテキストはソフトウェアが解釈して処理すべき記述を含まず、人間にとって意味のある文字群と、空白や改行、タブ文字など最低限の表示制御を行う制御文字のみを含む[1]プログラミング言語ソースコードHTMLXMLTeXといった形式は、純粋なテキストのみで構成されているテキストファイルの一種であり、一般的なテキストエディタで編集することもできるが、これらはプレーンテキストには分類されない。

HTML/XMLでは言語や文字エンコーディングを特定のタグや属性によって指定する[2]Pythonのソースコードは、デフォルトではUTF-8でエンコードされているものと仮定されるが、ソースファイル先頭の特別なコメント行(シバン)によってエンコーディングを指定することもできる[3]

制御コード・制御情報

先ほど、プレーンテキストはテキストデータのみで構成されると述べたが、正確には画面に表示される通常の文字(印字可能文字、空白も含む)のほか、文字としては表示されないが文字表示の制御などを行なう制御コードが含まれる。制御コードの例としては、文字の開始位置を揃える水平タブ (0x09)、垂直タブ (0x0B)、改行、改ページ (0x0C)、EOF(End Of File、ファイル終端マーク:0x1A)およびBOM(Byte Order Mark:Unicodeのように2バイト以上で1文字を構成する文字コードにおいてエンディアンを判別するための複数バイトからなる情報)などがある。このほか、各種文字コードの制御情報も含まれる。

これら制御コードに関し、OS間では互換性の問題が生じる。MS-DOS・Windows、UNIXおよびClassic Mac OSのプレーンテキストでは、それぞれ異なる改行コードを用いており、これが問題となることがありうる。

以下に、各OSの標準的な改行コードを挙げる。CRおよびLFはそれぞれASCIIの制御コードであり、CRは「復帰」を、LFは「改行」を表す。

OS 改行コード
MS-DOS・Windows CR+LF
UNIX LF
Classic Mac OS CR

MS-DOSは、CP/Mとの互換性を持たせるためにCR+LFを採用し、Windowsもそれを踏襲することになった[4]。これはCRとLFの2つの制御コードを用いて1つの改行を表す形式であり、タイプライタでキャリッジ(印字するためのヘッド)を戻し(キャリッジリターン)、1行分を紙送り(ラインフィード)して、次の行を印字する態勢をとる動作を改行命令として模倣したものである[5]

UnixベースのOSとして再設計されたMac OS X(のちにOS Xを経てmacOSに改名)では、LFを主流として採用するようになった。

Unicodeでは改行をU+2028で、改段落をU+2029で表している。このほか、Unicodeでは垂直タブおよび改ページも改行として扱う。

文字コード

アラビア数字ラテン文字(いわゆる英字)以外の印字文字や、改行文字を扱う(したがって、たいていの)場合、文字コードの問題が発生する可能性がある。かつてUNIXやLinuxが拡張UNIXコード(日本語環境ではEUC-JPが多かろう)の文字コードを主に利用していたのに対し、MS-DOS・WindowsやClassic Mac OSは、Unix系とは互換性のない文字コード(日本語環境ではShift_JISの独自拡張)を主に利用していた。そのために、異なるOSを使用しているコンピュータ間でファイルを転送した場合、期待している通りにテキストが表示されない文字化けと呼ばれる現象が起きてしまうことが多かった。これらの改行コード、文字コードの違いに対する問題は、変換ソフトウェアあるいは複数の改行コードや文字コードに対応したテキストエディタなどの利用で補える。また、モダンな環境ではUnicodeの利用が一般的となっており、異なるコンピュータ間でのテキストデータ交換が容易になっているが、プレーンテキストの場合はエンコーディングの情報を含まないため、送信側と受信側の双方でエンコードとデコードに用いる文字コードを決めておく必要があり、異なる文字コードを使ってしまった場合は依然として文字化けが起きてしまうことには変わりない。

Windows NT系ではOSの内部エンコーディングはUnicodeに対応しているが、互換性の観点から、システムの言語設定(システムロケール)に応じたマルチバイト文字セットが使われている箇所がいまだに残っているため、注意が必要となる(例えばcmd.exeの出力結果をテキストファイルにリダイレクトして保存する際は、デフォルトでシステムロケールに応じたエンコーディングが使われる)。

外字フォントを利用している場合も、その文字が含まれるフォントがない場合は期待通りの表示を得られない。

暗号技術のplaintext

暗号化アルゴリズムへの入力を、プレーンテキスト (plaintext) と呼ぶ[6]。こちらは英語では plain と text の間に空白が入らない。

出典

関連項目


平文

(plainText から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/08/10 14:39 UTC 版)

平文(ひらぶん、へいぶん)やクリアテキスト: cleartext)とは、データ通信において、意味が理解でき直接利用できる、つまり暗号化されないままで、転送あるいは蓄積されるデータやメッセージの形式のことである。

暗号化アルゴリズムの入力はプレーンテキスト: plaintext)、出力は暗号文: ciphertext)と呼ぶ。英語では plaintextplain text は区別される。

概要

暗号とは、通信されている情報を見ても、特別な知識・解読作業なしでは読めないように変換する表記法のことであり、暗号文とはそのような処理がなされたデータである。であるから、平文とは、秘匿・隠蔽の処理が何も行われていない、そのままのデータのこと。現代では、平"文"、暗号"文"といっても文字列を指すものではなくバイナリデータを意味していて、テキスト(文字)のデータだけに留まらず、画像や音声などについても用いる。

定義

Internet Engineering Task Forceによる定義、ならびに情報処理推進機構による翻訳[1][2]
英語名 日本語名 定義
cleartext 平文 意味的な情報内容(すなわち、意味)が理解できる、または直接利用できるデータ。暗号化されているデータは平文では無い。
plaintext プレーンテキスト 暗号化処理に入力され、これによって変換されるデータ、もしくは、復号処理の出力であるデータ。多重暗号化処理をかける場合など、プレーンテキストは暗号化されている場合もある。特にインターネット標準では、cleartext と plaintext を混同するべきではない(SHOULD NOT)[1]とされている。

平文の取り扱い

パスワードやクレジットカード番号、個人情報などの秘匿することが重要な情報をインターネットなどのネットワーク経由で送信する場合、スニファといったツールによる盗聴のおそれがあるため、秘匿が必要なデータは平文のままで送信してはいけない。これはコンピュータセキュリティの基本である。

しかしながら、インターネットの初期段階ではセキュリティの考慮はあまりなされておらず、telnetFTPPOP3HTTPといった古くからあるプロトコルを使う昔のアプリケーションはパスワードを平文のままで送信していた。

これらのプロトコルには、既に暗号化のための拡張規格があり、それに対応したアプリケーションが開発されている。

WebページはHTTPを使い、電子メールの取得もPOP3を用いることが多い。このため、現在でも多くの場面で平文が使われている。暗号化に対応したアプリケーションを利用しようとすると、暗号化デバイスが必要になったり、CPU負荷(計算量)が増加するため、金銭的にコストが上昇しがちであることも敬遠される一因である。 利用者は、クレジットカード番号などの個人情報などをWebページに入力する場合は、通信が暗号化されていることを確認する必要がある。 ウェブアプリケーションを作成する場合も、平文を利用すべきか考慮が必要である。

関連項目

参照

外部リンク



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「plainText」の関連用語

plainTextのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



plainTextのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのプレーンテキスト (改訂履歴)、平文 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS