FASTAフォーマット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2015/05/22 04:39 UTC 版)
「FASTA」の記事における「FASTAフォーマット」の解説
FASTA では、シーケンスデータの記述形式として FASTAフォーマットという形式を使う。FASTAフォーマットはプレーンテキストである。1つのシーケンスのデータは、">" で始まる1行のヘッダ行と、2行目以降の実際のシーケンス文字列で構成される。ヘッダ行では、">" の次にシーケンスデータを識別するための文字列を記述し、続けてそのシーケンスデータを説明する文字列を記述する(両方とも省略してよい)。ヘッダ行の ">" と識別文字列の間にスペースを入れてはいけない。FASTAフォーマットの全ての行は、80文字未満とすることが推奨される。">" で始まる別の行が出現すると、そこでシーケンスデータが区切られ、別のシーケンスデータが始まる。 FASTA ファイルフォーマットの例を示す。 >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY FASTAフォーマットでは、IUB/IUPAC で規定されているアミノ酸コードもしくは核酸コードで、シーケンス文字列を記述する。ただし、小文字で記述した場合は FASTA内部で自動的に大文字に変換される。また、"-"(ハイフン)でギャップを、"U" でセレノシステインを、"*" で翻訳終止を記述する。FASTAでは、クエリーのシーケンスに数字が含まれていると正しく処理をすることができない。FASTAで処理を行う前に、数字は、除去しておくか、適切な文字列("N" は不明な核酸塩基、"X" は不明なアミノ酸 を意味する)に置き換えておく必要がある。 FASTA で使える核酸のコード核酸のコード意味A Adenosine (アデニン) C Cytidine (シトシン) G Guanine (グアニン) T Thymidine (チミン) U Uracil (ウラシル) R G A (puRine, プリン) Y T C (pYrimidine, ピリミジン) K G T (Ketone, ケトン) M A C (aMino group, アミノ基) S G C (Strong interaction, 強い結合) W A T (Weak interaction, 弱い結合) B G T C (not A) (B, A の次の文字) D G A T (not C) (D, C の次の文字) H A C T (not G) (H, G の次の文字) V G C A (not T, not U) (V, U の次の文字) N A G C T (aNy, 不明) - ギャップ FASTA で使えるアミノ酸コードアミノ酸コード意味A アラニン B アスパラギン酸 もしくは アスパラギン C システイン D アスパラギン酸 E グルタミン酸 F フェニルアラニン G グリシン H ヒスチジン I イソロイシン K リシン L ロイシン M メチオニン N アスパラギン P プロリン Q グルタミン R アルギニン S セリン T スレオニン U セレノシステイン V バリン W トリプトファン Y チロシン Z グルタミン酸 もしくは グルタミン X 不明 (any) * 翻訳終止 - ギャップ
※この「FASTAフォーマット」の解説は、「FASTA」の解説の一部です。
「FASTAフォーマット」を含む「FASTA」の記事については、「FASTA」の概要を参照ください。
- FASTAフォーマットのページへのリンク