メタデータとの統合
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/18 15:26 UTC 版)
「メタゲノミクス」の記事における「メタデータとの統合」の解説
今日、メタゲノムを含むあらゆるゲノム配列データは指数関数的に増加しており、膨大な量のデータがデータベースに蓄積されている。特にメタゲノム解析では、個々のメタゲノム解析プロジェクトとそれに関連するメタデータとの関係が複雑であり、データ量が増加することでより一層全体が複雑化することが課題となっている。メタデータには、メタゲノム解析に用いるために採取された環境サンプルの3次元的な地理情報(どのような緯度、経度、深度または標高から採取されたサンプルなのか)、環境特性(海水、淡水、土壌、など)、サンプリングサイトに関する物理学的なデータ(気温や気圧、水圧、溶存化学成分、など)、サンプリングの方法論、などに関する詳細情報が含まれる。これらの情報は、メタゲノム解析の再現可能性を確保し、さらなる発展的な解析を可能にするために必要な情報となる。この重要性のため、Genomes OnLine Database(GOLD)などでは、メタデータと付属するデータはレビューとキュレーションを受け、標準化されたデータ形式としてデータベース化されている。 メタデータとシーケンスデータを統合的に管理し解析するために、いくつかのツールが開発されており、異なるデータセットを様々な生態学的指標を使用して比較解析することが可能になっている。例えば2007年、Folker MeyerとRobert Edwards、およびアルゴンヌ国立研究所とシカゴ大学のチームは、メタゲノムデータセット分析のためのコミュニティリソースとしてMetagenomics Rapid Annotation using Subsystem Technology(MG-RAST(英語版))サーバをリリースした。このサーバでは2012年6月の時点で8,000人を超えるユーザーが計50,000を超えるメタゲノムプロジェクトの配列を投稿しており、14.8TB(14x1012 bp)を超える配列が分析されている他、10,000を超える公開データセットをMG-RAST内で比較することもできる。また、Integrated Microbial Genomes / Metagenomes(IMG/M)システムは、Integrated Microbial Genomes (IMG)システムおよび Genomic Encyclopedia of Bacteria and Archaea (GEBA)に含まれる単離株のリファレンスゲノムに基づいた、メタゲノム解析による微生物群集機能解析のためのツール群を提供している。 ハイスループットのメタゲノム解析データを分析するために初期に開発されたスタンドアローンなツールの1つはMEGAN(英語版)である。このプログラムは、マンモスの骨から得られたメタゲノム配列を分析するために2005年に使用された。このツールはリファレンスゲノムのデータベースとのBLAST検索の結果に基づき、単純な共通祖先(LCA)探索アルゴリズムを使用してリードをNCBI分類のノードに紐付けたり、あるいはリードをSEEDやKEGGの分類ノードに紐付けることにより、系統分類と遺伝子機能の両方を解析することができる。 上述のように今日では、NCBI GenBankのようなゲノム配列データベースは指数関数的に成長している。MG-RASTやMEGANなどのような配列類似性検索ベースのアプローチは、大規模な配列データにアノテーションを付けるには非常に遅く、たとえば中小規模のデータセットに対してでさえ数時間もの実行時間を要してしまうため、より高速で効率的なツールが必要とされており研究が進められている。たとえばCLARKというツールでは、著者らによると「1分あたり3200万のメタゲノムショートリードを分類可能」と宣伝されており、実際に非常に高速に分類アノテーションを実行できる。この速度であれば、10億本のショートリードであっても30分程度で処理できる。 また、古代DNAではそのサンプルの性質上、DNAの損傷に起因する不確実性(シーケンスのエラー等)が大きい。このような不確実性を超えて保守的な配列類似性を推定できるFALCONのようなツールも登場している。著者らによると、メモリと速度のパフォーマンスに影響を与えることなく、緩いしきい値を使用して配列間距離を計算することが可能である。
※この「メタデータとの統合」の解説は、「メタゲノミクス」の解説の一部です。
「メタデータとの統合」を含む「メタゲノミクス」の記事については、「メタゲノミクス」の概要を参照ください。
- メタデータとの統合のページへのリンク