新規エントリーの作成
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/05/07 14:12 UTC 版)
「Pfamデータベース」の記事における「新規エントリーの作成」の解説
新しいファミリーは、さまざまな情報源から得られているが、主にPDBと、Pfamにヒットしない遺伝子をプロテオーム全体の解析から見つけ出される。 ファミリーごとに、代表的な配列のサブセットが高品質なシードアライメントに整列される。シードアライメントの配列は、主にpfamseq(リファレンスプロテオームの非冗長データベース)から取得し、一部はUniprotKB(英語版)から補足される。このシードアライメントは、次に、HMMER(英語版)を使用したプロファイル隠れマルコフモデルの構築に使用される。そして、このHMMを配列データベースで検索し、精査された収集閾値に達したすべてのヒットをタンパク質ファミリーのメンバーとして分類する。このようにして得られたメンバーのコレクションをプロファイルHMMに位置合わせし、完全アライメントを生成する。 ファミリーごとに、手動で精査された収集閾値が割り当てられる。この閾値は、そのファミリーに対する真の適合数を最大化しつつ、偽陽性を除外するものである。偽陽性は、同じクランのものではないPfamファミリーのヒット間での重畳を観察することによって推定される。この閾値は、ファミリーHMMにマッチしたものを、タンパク質ファミリーに含める必要があるかどうかを評価するために使用される。Pfamの更新のたびに、新規ファミリーと既存ファミリーが重複しないように、収集閾値が再評価される。
※この「新規エントリーの作成」の解説は、「Pfamデータベース」の解説の一部です。
「新規エントリーの作成」を含む「Pfamデータベース」の記事については、「Pfamデータベース」の概要を参照ください。
- 新規エントリーの作成のページへのリンク