Pfamデータベース 特徴

Pfamデータベース

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/04/07 21:06 UTC 版)

特徴

Pfam内の各ファミリーについて、次のことができる。

  • ファミリーの説明を表示する
  • マルチプルアラインメントを表示する
  • タンパク質ドメインの構造を表示する
  • 種の分布を調べる
  • 他のデータベースへのリンクをたどる
  • 既知のタンパク質の構造を表示する

エントリーには、ファミリー、ドメイン、リピート、モチーフなどの種類がある。ファミリーはデフォルトのクラスであり、単にメンバーが関連していることを示す。ドメインとは、複数のタンパク質のコンテキストに存在する自律構造単位または再利用可能な配列単位と定義されている。リピートは通常、単独では安定しておらず、ドメインまたは拡張構造を形成するために、通常、縦列反復を形成する必要がある。モチーフは通常、球状ドメインの外側にある短い配列単位である[9]

Pfamファミリーの説明は、ウィキペディアを使用して一般の人々が管理している(「歴史」を参照)。

リリース29.0の時点で、UniprotKB英語版のタンパク質配列の76.1%が、少なくとも1つのPfamドメインと一致していた[15]

新規エントリーの作成

新しいファミリーは、さまざまな情報源から得られているが、主にPDBと、Pfamにヒットしない遺伝子をプロテオーム全体の解析から見つけ出される[16]

ファミリーごとに、代表的な配列のサブセットが高品質なシードアライメントに整列される。シードアライメントの配列は、主にpfamseq(リファレンスプロテオームの非冗長データベース)から取得し、一部はUniprotKB英語版から補足される[15]。このシードアライメントは、次に、HMMER英語版を使用したプロファイル隠れマルコフモデルの構築に使用される。そして、このHMMを配列データベースで検索し、精査された収集閾値に達したすべてのヒットをタンパク質ファミリーのメンバーとして分類する。このようにして得られたメンバーのコレクションをプロファイルHMMに位置合わせし、完全アライメントを生成する。

ファミリーごとに、手動で精査された収集閾値が割り当てられる。この閾値は、そのファミリーに対する真の適合数を最大化しつつ、偽陽性を除外するものである。偽陽性は、同じクランのものではないPfamファミリーのヒット間での重畳を観察することによって推定される。この閾値は、ファミリーHMMにマッチしたものを、タンパク質ファミリーに含める必要があるかどうかを評価するために使用される。Pfamの更新のたびに、新規ファミリーと既存ファミリーが重複しないように、収集閾値が再評価される[16]

機能未知ドメイン

機能未知ドメイン英語版(DUF)は、Pfamデータベースの中で増大する部分を占めている。このファミリーは種を超えて保存されていることがわかっているが、果たしている役割が未知のためにこのような名前が付けられた。新しく追加された各DUFには、追加された順に名前が付けられる。これらのエントリの名前は、機能が特定されるたびに更新される。通常、DUFに属する少なくとも1つのタンパク質の機能が決定されると、DUF全体の機能が更新され、ファミリーの名前が変更される。名付けられたファミリーの中には、まだ機能未知ドメインで、代表的なタンパク質にちなんで名前を持つものもある(例:YbbR)。機能不明の保存された配列が配列データ上で発見されるにつれて、DUFの数は増加し続けると予想される。DUFの数は、最終的には機能がわかっているファミリーの数を上回ると予想されている[16]

クラン

時間の経過とともに配列と残基の網羅率が増加し、ファミリーが増えるにつれ、より多くの進化的関係が発見され、ファミリーをクラン(clan、一族の意味)に分類することができるようになった[8]。クランは、2005年にPfamデータベースに最初に導入された。これらは、構造的、機能的、配列およびHMMの比較によって確認された、単一の進化的起源を共有する関連ファミリーのグループである[5]。リリース29.0の時点で、タンパク質ファミリーの約1/3がクランに所属していた[15]。この部分は、2019年(バージョン32.0)までに約3/4まで増加した[17]

クラン関係の可能性を特定するために、Pfamキュレーターは、ECODデータベースからの情報に加えて、出力の単純比較プログラム(Simple Comparison Of Outputs Program、SCOOP)を使用している[17]。ECODは、構造が知られているタンパク質ファミリーの半自動階層型データベースであり、Pfamエントリーに容易にマッピングされるファミリーと、通常Pfamクランにマッピングされるホモロジーレベルを備えている[18]


  1. ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). “The Pfam protein families database”. Nucleic Acids Res 36 (Database issue): D281–8. doi:10.1093/nar/gkm960. PMC 2238907. PMID 18039703. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238907/. 
  2. ^ Finn, R. D.; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M. et al. (Jan 2006). “Pfam: clans, web tools and services” (Free full text). Nucleic Acids Research 34 (Database issue): D247–D251. doi:10.1093/nar/gkj149. ISSN 0305-1048. PMC 1347511. PMID 16381856. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1347511/. 
  3. ^ Bateman, A.; Coin, L.; Durbin, R.; Finn, R. D.; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M. et al. (2004). “The Pfam protein families database”. Nucleic Acids Research 32 (Database issue): 138D–1141. doi:10.1093/nar/gkh121. ISSN 0305-1048. PMC 308855. PMID 14681378. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC308855/. 
  4. ^ Pfam 31.0 is released”. Xfam Blog (2017年3月8日). 2017年3月13日閲覧。
  5. ^ a b c d Sammut, Stephen; Finn, Robert D.; Bateman, Alex (2008). “Pfam 10 years on: 10 000 families and still growing”. Briefings in Bioinformatics 9 (3): 210–219. doi:10.1093/bib/bbn010. PMID 18344544. 
  6. ^ a b c Sonnhammer, Erik L.L.; Eddy, Sean R.; Durbin, Richard (1997). “Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments”. Proteins 28 (3): 405–420. doi:10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID 9223186. 
  7. ^ Xu, Qifang; Dunbrack, Roland L. (2012). “Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB”. Bioinformatics 28 (21): 2763–2772. doi:10.1093/bioinformatics/bts533. PMC 3476341. PMID 22942020. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3476341/. 
  8. ^ a b c Finn, R. D.; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, J. E.; Gavin, O. L.; Gunasekaran, P. et al. (2009). “The Pfam protein families database”. Nucleic Acids Research 38 (Database): D211–D222. doi:10.1093/nar/gkp985. ISSN 0305-1048. PMC 2808889. PMID 19920124. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2808889/. 
  9. ^ a b Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (2002). “The Pfam protein families database”. Nucleic Acids Res. 30 (1): 276–80. doi:10.1093/nar/30.1.276. PMC 99071. PMID 11752314. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC99071/. 
  10. ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, Scherer SE, Li PW, Hoskins RA, Galle RF, George RA, Lewis SE, Richards S, Ashburner M, Henderson SN, Sutton GG, Wortman JR, Yandell MD, Zhang Q, Chen LX, Brandon RC, Rogers YH, Blazej RG, Champe M, Pfeiffer BD, Wan KH, Doyle C, Baxter EG, Helt G, Nelson CR, Gabor GL, Abril JF, Agbayani A, An HJ, Andrews-Pfannkoch C, Baldwin D, Ballew RM, Basu A, Baxendale J, Bayraktaroglu L, Beasley EM, Beeson KY, Benos PV, Berman BP, Bhandari D, Bolshakov S, Borkova D, Botchan MR, Bouck J, Brokstein P, Brottier P, Burtis KC, Busam DA, Butler H, Cadieu E, Center A, Chandra I, Cherry JM, Cawley S, Dahlke C, Davenport LB, Davies P, de Pablos B, Delcher A, Deng Z, Mays AD, Dew I, Dietz SM, Dodson K, Doup LE, Downes M, Dugan-Rocha S, Dunkov BC, Dunn P, Durbin KJ, Evangelista CC, Ferraz C, Ferriera S, Fleischmann W, Fosler C, Gabrielian AE, Garg NS, Gelbart WM, Glasser K, Glodek A, Gong F, Gorrell JH, Gu Z, Guan P, Harris M, Harris NL, Harvey D, Heiman TJ, Hernandez JR, Houck J, Hostin D, Houston KA, Howland TJ, Wei MH, Ibegwam C, Jalali M, Kalush F, Karpen GH, Ke Z, Kennison JA, Ketchum KA, Kimmel BE, Kodira CD, Kraft C, Kravitz S, Kulp D, Lai Z, Lasko P, Lei Y, Levitsky AA, Li J, Li Z, Liang Y, Lin X, Liu X, Mattei B, McIntosh TC, McLeod MP, McPherson D, Merkulov G, Milshina NV, Mobarry C, Morris J, Moshrefi A, Mount SM, Moy M, Murphy B, Murphy L, Muzny DM, Nelson DL, Nelson DR, Nelson KA, Nixon K, Nusskern DR, Pacleb JM, Palazzolo M, Pittman GS, Pan S, Pollard J, Puri V, Reese MG, Reinert K, Remington K, Saunders RD, Scheeler F, Shen H, Shue BC, Sidén-Kiamos I, Simpson M, Skupski MP, Smith T, Spier E, Spradling AC, Stapleton M, Strong R, Sun E, Svirskas R, Tector C, Turner R, Venter E, Wang AH, Wang X, Wang ZY, Wassarman DA, Weinstock GM, Weissenbach J, Williams SM, WoodageT, Worley KC, Wu D, Yang S, Yao QA, Ye J, Yeh RF, Zaveri JS, Zhan M, Zhang G, Zhao Q, Zheng L, Zheng XH, Zhong FN, Zhong W, Zhou X, Zhu S, Zhu X, Smith HO, Gibbs RA, Myers EW, Rubin GM, Venter JC (2000). “The genome sequence of Drosophila melanogaster”. Science 287 (5461): 2185–95. Bibcode2000Sci...287.2185.. doi:10.1126/science.287.5461.2185. PMID 10731132. 
  11. ^ Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C. et al. (2001). “Initial sequencing and analysis of the human genome”. Nature 409 (6822): 860–921. doi:10.1038/35057062. ISSN 0028-0836. PMID 11237011. 
  12. ^ Finn, Robert D.; Bateman, Alex; Clements, Jody; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie et al. (2014). “Pfam: the protein families database”. Nucleic Acids Research 42 (D1): D222–D230. doi:10.1093/nar/gkt1223. ISSN 0305-1048. PMC 3965110. PMID 24288371. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3965110/. 
  13. ^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (1998). “Pfam: multiple sequence alignments and HMM-profiles of protein domains”. Nucleic Acids Res. 26 (1): 320–2. doi:10.1093/nar/26.1.320. PMC 147209. PMID 9399864. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC147209/. 
  14. ^ Finn, R. D.; Marshall, M.; Bateman, A. (2004). “iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions”. Bioinformatics 21 (3): 410–412. doi:10.1093/bioinformatics/bti011. ISSN 1367-4803. PMID 15353450. 
  15. ^ a b c d Finn, Robert D.; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simon C.; Punta, Marco et al. (2016). “The Pfam protein families database: towards a more sustainable future”. Nucleic Acids Research 44 (D1): D279–D285. doi:10.1093/nar/gkv1344. ISSN 0305-1048. PMC 4702930. PMID 26673716. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4702930/. 
  16. ^ a b c d e f Punta, M.; Coggill, P. C.; Eberhardt, R. Y.; Mistry, J.; Tate, J.; Boursnell, C.; Pang, N.; Forslund, K. et al. (2011). “The Pfam protein families database”. Nucleic Acids Research 40 (D1): D290–D301. doi:10.1093/nar/gkr1065. ISSN 0305-1048. PMC 3245129. PMID 22127870. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3245129/. 
  17. ^ a b El-Gebali, Sara; Mistry, Jaina; Bateman, Alex; Eddy, Sean R; Luciani, Aurélien; Potter, Simon C; Qureshi, Matloob; Richardson, Lorna J et al. (8 January 2019). “The Pfam protein families database in 2019”. Nucleic Acids Research 47 (D1): D427–D432. doi:10.1093/nar/gky995. PMC 6324024. PMID 30357350. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6324024/. 
  18. ^ Evolutionary Classification of Protein Domains”. prodata.swmed.edu. 2019年5月18日閲覧。
  19. ^ Chothia, Cyrus (1992). “One thousand families for the molecular biologist”. Nature 357 (6379): 543–544. Bibcode1992Natur.357..543C. doi:10.1038/357543a0. ISSN 0028-0836. PMID 1608464. 
  20. ^ Heger, A.; Wilton, C. A.; Sivakumar, A.; Holm, L. (Jan 2005). “ADDA: a domain database with global coverage of the protein universe” (Free full text). Nucleic Acids Research 33 (Database issue): D188–D191. doi:10.1093/nar/gki096. ISSN 0305-1048. PMC 540050. PMID 15608174. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC540050/. 
  21. ^ Pfam 28.0 release notes”. 2015年6月30日閲覧。
  22. ^ A new Pfam-B is released” (英語). Xfam Blog (2020年6月30日). 2021年5月6日閲覧。
  23. ^ Moving to xfam.org”. 2016年11月25日閲覧。
  24. ^ Dunbrack, Roland. “PDBfam”. Fox Chase Cancer Center. 2013年3月9日閲覧。
  25. ^ Xu, Qifang; Dunbrack, Roland (2012). “Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB”. Bioinformatics 28 (21): 2763–72. doi:10.1093/bioinformatics/bts533. PMC 3476341. PMID 22942020. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3476341/. 





英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  Pfamデータベースのページへのリンク

辞書ショートカット

すべての辞書の索引

「Pfamデータベース」の関連用語

Pfamデータベースのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Pfamデータベースのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのPfamデータベース (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2024 GRAS Group, Inc.RSS