シーケンスコンティグ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/05/13 15:55 UTC 版)
シーケンスコンティグとは、ボトムアップのシーケンス戦略によって生成された小さなDNA配列断片(リード)の再構成から得られる、連続配列を指す。このコンティグの意味は、Rodger Staden(1979)による元の定義と一致する。DNAシーケンシングのボトムアップ戦略では、まず最初に生物のゲノムを多くの小さな断片に剪断し(細分化)、これらの断片をシーケンシングし、それらをコンティグに再組み立てすることで最終的にゲノム全体を復元する(再構築)という3ステップを踏む。現在主流となっているDNAシーケンシング技術では、比較的短いDNA断片配列(300〜1000ヌクレオチド程度)を得ることが一般的であるため、ゲノムDNAはシーケンシングの前に予め細かく断片化しておく必要がある。すなわち、ゲノムから直接、あるいは一旦PCR等によって任意の領域が増幅された部分領域から、DNAがランダムに断片化され、シーケンスに適したサイズの断片が作成される。この小断片に由来するシーケンスデータであるリード(read)データを元に、次にアセンブリソフトウェアによって、末端がオーバーラップするようなリードのペアを検索する。このようなペアのリードを組み立てていき、より長い連続したリード配列を生成する、というプロセスを何度も繰り返すことで、最初は短いリードのペアであってもアセンブリによってより長く伸長して行くことができ、コンティグと呼ばれる大きな配列断片を得ることができる。理想的には、このプロセスは最終的には染色体全体のDNA配列を決定することができることが期待される。 今日ではIllumina社製のシーケンサを利用して、ほぼ同じ長さのDNA断片の両端を部分的にシーケンスする、いわゆるペアエンドシーケンスを行うことが一般的に行われている。ここでコンティグとは、リードのオーバーラップによって連続的に伸長された配列データを指す。最初にライブラリを作成するDNA断片の長さは任意に設定できるため、同じ断片に由来する2つの末端配列リードの間の距離もまた既知である 。例えば、1000bpのDNA断片について300bpの末端をシーケンスした場合、そのDNA断片に由来するリードは2つ得られ、その間には700bpの何かしらの配列が存在していることになる。この情報は、コンティグの向きに関する情報を与えると共に、アセンブリによってスキャフォールド(scaffolds)と呼ばれるコンティグの集合体を作成する上で重要になる 。 スキャフォールドは、既知の長さのギャップで区切られた重複するコンティグで構成される。コンティグの向きに加えられた新しい制約によって、例えばゲノム内で高度に反復された配列の配置を決定することが可能になる。例えば、一端のリードが反復配列を持っている場合、その対となるリードがコンティグ内に配置されていれば、反復配列の配置も知ることができる 。スキャフォールド内におけるコンティグ間のギャップは、例えばPCR増幅とその後のシーケンシング(小さいギャップの場合)、BACクローニング法とその後の大きいギャップのシーケンシングなどを経ることで、シーケンスによる配列決定を進めることもできる。
※この「シーケンスコンティグ」の解説は、「コンティグ」の解説の一部です。
「シーケンスコンティグ」を含む「コンティグ」の記事については、「コンティグ」の概要を参照ください。
- シーケンスコンティグのページへのリンク