ゲノムアセンブリ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/18 15:26 UTC 版)
詳細は「配列アセンブリング」を参照 アセンブリとは短いDNA配列を繋げ合わせることであり、これによりゲノム配列の部分的な配列を得ることができる。また、得られる元の断片より長い配列のことをコンティグという。ゲノムプロジェクトやメタゲノムプロジェクトにおいては、扱うDNA配列データの基本的構造は同じである。しかしながら、前者では単一種由来の配列データをより高いカバレッジで得ることが容易である一方で、後者は異なる生物種由来の配列がミックスされている分、データの冗長性が非常に低い(データセット中で同じ配列が低頻度でしか現れない)ことが多い。さらに、第2世代のシーケンシング技術はリード長が短く、そのためゲノムアセンブリでエラー(ミスアセンブリ)が頻発し、得られた結果の信頼性が低くなる事がある。特にトランスポゾンなどに代表されるゲノム中の反復配列の存在は、このようなミスアセンブリを誘発しやすい。また、異なる複数種由来の配列を誤ってアセンブリしてしまう、いわゆるキメラコンティグを作り出すようなミスアセンブリも起きうる。 このようなエラーを最小限にし、かつできるだけ長くアセンブリが繋がるように、様々なツール(アセンブラ)が現在も開発されている。多くアセンブラは精度を向上させるためにIlluminaのペアエンドリード(英語版)の情報を利用する。Phrap(英語版)やCelera Assemblerなどの一部のプログラムは、単一のゲノムをアセンブルするために設計されているが、それにも関わらずメタゲノムデータセットにおいても良好なアセンブル結果を生み出すことが経験的に知られている。Velvet(英語版)などの他のプログラムでは内部でde Bruijnグラフ(英語版)のアルゴリズムを使用しており、第2世代シーケンサーから生成されるショートリード用に最適化されている。リファレンスゲノムを使用することでアセンブリを改善するアプローチも提案されているが、この方法は既にゲノムが読まれている限られた微生物系統にしか適応できない。アセンブリが作成された後、そのコンティグがどの系統に由来しているのかを推定することも、技術上の課題である。
※この「ゲノムアセンブリ」の解説は、「メタゲノミクス」の解説の一部です。
「ゲノムアセンブリ」を含む「メタゲノミクス」の記事については、「メタゲノミクス」の概要を参照ください。
- ゲノム・アセンブリのページへのリンク