バイオインフォマティクス
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/04/18 06:15 UTC 版)
データベース
データベースは、バイオインフォマティクスの研究と応用に不可欠である。DNAやタンパク質の配列、分子構造、表現型、生物多様性など、さまざまな情報タイプをカバーする多くのデータベースが構築されている。データベースには、実験的に取得される実験データと、分析から取得される予測データの片方または両方が含まれる。データベースはしばしば、特定の生物や代謝経路、目的分子に特化して構築される。また一方で、他の複数のデータベースからコンパイルされたデータを組み込むこともある。バイオインフォマティクスで扱うデータは、一次元の文字列(シーケンス全般)から、三次元構造のマトリクス (PDB)、計算機科学におけるグラフ(ネットワークデータ全般)、遺伝子オントロジーのような有向非巡回グラフ (DAG; directed acyclic graph) といった非常に多岐にわたるデータ構造を持つ。各種のデータベースは、ファイル形式やアクセスメカニズム、パブリックかどうか、などの様々な点で差異がある。生物学研究に用いられる主なデータベースは、以下のようなものが挙げられる(カッコ内は具体例):
- 配列データベース(DDBJ, EMBL, GenBank[1], Swiss-Prot[2])
- 立体構造データベース(PDB[3])
- パスウェイ・ネットワークデータベース(KEGG[4], BIND)
- マイクロアレイデータベース (ArrayExpress, GEO)
- 文献データベース(MEDLINE/PubMed[5])
- オントロジーデータベース(遺伝子オントロジー)
ソフトウェア
バイオインフォマティクス用のソフトウェアツール(英語版:Software tools for bioinformatics)は、単純なコマンドラインツールから、さまざまなバイオインフォマティクス企業や公的機関が提供するより複雑なグラフィカルプログラム、スタンドアロンのWebサービスなど、多岐に渡り、非常に多くのバイオインフォマティクスソフトウェアが開発され公開されている。多くのソフトウェアがオープンソースとされており、研究者は自由に利用することができる場合が多いが、有償のものもある。データベースを基盤とするソフトウェアは、開発元がWebブラウザから利用できるウェブアプリケーションとして公開している場合も多い。
オープンソースのバイオインフォマティクスソフトウェア
1980年代にバイオインフォマティクスが盛り上がって以来、多くのフリーでオープンソースのソフトウェアツールが開発され公開されている[38]。新しいタイプの生物学的な成果を生み出すためには、新しいアルゴリズムを開発することが必要になることも多い。一方で、革新的なin silico実験から新たな知見を得られる可能性もある。そのため、ソフトウェアを自由に利用できるオープンコードで無料で公開することで、あらゆる研究グループがバイオインフォマティクスに貢献する文化が育まれている。オープンソースツールは、アイデアを生み出し育む器として機能し、商業的アプリケーションに組み込まれることもある。また、生体情報統合の課題を支援するための、事実上の標準化や共有オブジェクトモデルを提供することもある。
オープンソース・ソフトウェア・パッケージには、Bioconductor、BioPerl、Biopython、BioJava、BioJS、BioRuby、Bioclipse、EMBOSS、.NET Bio、Orange、Apache Taverna、UGENE、GenoCAD、などのソフトウェア類が挙げられる。また、この伝統を維持し、さらなる機会を創出するために、非営利のOpen Bioinformatics Foundation[38] は、2000年以来毎年開催されるBioinformatics Open Source Conference(BOSC)を支援してきている[39]。
パブリックなバイオインフォマティクスデータベースを構築する方法としては、WikiOpener拡張機能を備えたMediaWikiエンジンを使用する方法もある。このシステムでは、その分野の研究者が各自でデータベースにアクセスして更新することができる[40]。
バイオインフォマティクスのWebサービス
SOAPおよびRESTベースのインターフェースが、さまざまなバイオインフォマティクスアプリケーション向けに開発されている。このようなシステムの元では、サーバー上に保管されているアルゴリズムやデータ、コンピューティングリソースに対して、世界中のコンピューター上からアクセスしてアプリケーションを実行することができる。エンドユーザーがソフトウェアやデータベースのメンテナンスのオーバーヘッドに対処する必要がないという利点がある。
基本的なバイオインフォマティクスサービスは、EBIによる3つのカテゴリに分類できる。シーケンス検索サービス(SSS)、シーケンスアライメント(MSA)、生物学的シーケンス分析(BSA)である[41]。 これらのバイオインフォマティクスリソースの可用性は、Webベースのバイオインフォマティクスソリューションの適用性の広さを示している、このようなWebサービスは、スタンドアロンの各種ツール類から、統合型の分散型で拡張可能なバイオインフォマティクスのワークフロー管理システム(bioinformatics workflow management systems)まで、幅広く存在する。
バイオインフォマティクスワークフロー管理システム
バイオインフォマティクスワークフロー管理システムは、バイオインフォマティクスアプリケーションにおける一連の計算やデータ操作のステップ、つまりワークフローを構成し実行するために設計された、ワークフロー管理システムの特殊な形式である。下記の様な特徴があり、例としてはGalaxy、Kepler、Taverna、UGENE、Anduril、HIVEなどが挙げられる。
- 個々のアプリケーションサイエンティスト自身が独自のワークフローを作成するための、使いやすい環境を提供する。
- 科学者がワークフローを実行して結果をリアルタイムで表示できるようにする、インタラクティブなツールを科学者に提供する
- 科学者間のワークフローの共有と再利用のプロセスを簡素化する
- 科学者がワークフロー実行結果の出所とワークフロー作成ステップを追跡できるようにする。
BioCompute
2014年に米国食品医薬品局は、バイオインフォマティクスの再現性について議論する会議を主催し、国立衛生研究所のベセスダキャンパスで開催された[42]。それから3年間に渡り、政府、業界、および学術団体の代表によるコンソーシアムが定期的に開かれ、BioComputeパラダイムについて話し合いが行われた[43]。セッションリーダーは、FDAとNIHの研究所とセンターの多数の支部、Human Variome ProjectやEuropean Medical Federation for Medical Informaticsなどの非営利団体、Stanford、New York Genome Center、George Washington Universityなどの研究機関の代表であった。
この会議によりBioComputeは、バイオインフォマティクスプロトコルの再現性、複製、レビュー、再利用を可能にするデジタル「ラボノートブック」形式のパラダイムを決定した。これは、グループ間のアイデアの交換を促進しながら、通常の人員流動の過程で研究グループ内のより大きな継続性を可能にするために提案されていた。
2016年、グループはベセスダのNIHで再招集し、BioComputeパラダイムの例であるBioComputeオブジェクトの可能性について議論をすすめた。 この成果は、'standard trial use'ドキュメントとbioRxivにアップロードされたプレプリント論文として発表された。BioComputeオブジェクトを使用すると、JSON化されたレコードを従業員、共同編集者、規制当局間で共有することができる[44][45]。
教育プラットフォーム
バイオインフォマティクスの概念と方法を教育するために、様々なプラットフォームが設計されている。たとえば、スイスのバイオインフォマティクス研究所トレーニングポータルを通じて提供される ROSALIND のオンラインコースが挙げられる。カナダのバイオインフォマティクスワークショップは、クリエイティブ・コモンズライセンスに基づいて、ウェブサイトのトレーニングワークショップのビデオとスライドを提供している。 4273πプロジェクト または4273piプロジェクト[46] も、オープンソースの教育資料を無料で提供している。 このコースは低コストのRaspberry Piコンピュータを利用し、大人や学校の生徒を教えるために使用されている[47][48]。4273πは、Raspberry Piコンピューターと4273πオペレーティングシステムを使用して、研究レベルのバイオインフォマティクスを利用している研究者や研究スタッフによるコンソーシアムによって積極的に開発されている[49][50]。
- ^ Lesk (2013年7月26日). “Bioinformatics”. Encyclopaedia Britannica. 2017年4月17日閲覧。
- ^ a b Sim, A. Y. L.; Minary, P.; Levitt, M. (2012). “Modeling nucleic acids”. Current Opinion in Structural Biology 22 (3): 273-78. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125 .
- ^ Dawson, W. K.; Maciejczyk, M.; Jankowska, E. J.; Bujnicki, J. M. (2016). “Coarse-grained modeling of RNA 3D structure”. Methods 103: 138-56. doi:10.1016/j.ymeth.2016.04.026. PMID 27125734.
- ^ Kmiecik, S.; Gront, D.; Kolinski, M.; Wieteska, L.; Dawid, A. E.; Kolinski, A. (2016). “Coarse-Grained Protein Models and Their Applications”. Chemical Reviews 116 (14): 7898-936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362.
- ^ Wong, K. C. (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN 9781498724975
- ^ Joyce, A. P.; Zhang, C.; Bradley, P.; Havranek, J. J. (2015). “Structure-based modeling of protein: DNA specificity”. Briefings in Functional Genomics 14 (1): 39-49. doi:10.1093/bfgp/elu044. PMC 4366589. PMID 25414269 .
- ^ Spiga, E.; Degiacomi, M. T.; Dal Peraro, M. (2014). “New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly”. In Karabencheva-Christova, T.. Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. 96. Academic Press. pp. 77-111. doi:10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID 25443955
- ^ Ciemny, Maciej; Kurcinski, Mateusz; Kamel, Karol; Kolinski, Andrzej; Alam, Nawsad; Schueler-Furman, Ora; Kmiecik, Sebastian (2018-05-04). “Protein-peptide docking: opportunities and challenges” (英語). Drug Discovery Today 23 (8): 1530-37. doi:10.1016/j.drudis.2018.05.006. ISSN 1359-6446. PMID 29733895.
- ^ a b Hogeweg P (2011). “The Roots of Bioinformatics in Theoretical Biology”. PLOS Computational Biology 7 (3): e1002021. Bibcode: 2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479 .
- ^ Bioinformatica: een werkconcept. 1. Kameleon. (1970). pp. 28-29.
- ^ Hogeweg P (1978). “Simulating the growth of cellular forms”. Simulation 31 (3): 90-96. doi:10.1177/003754977803100305.
- ^ Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2
- ^ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
- ^ “Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science 152 (3720): 363-366. (1966). Bibcode: 1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169.
- ^ “Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res 28 (1): 214-218. (January 2000). doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229 .
- ^ Xiong, Jin (2006). Essential Bioinformatics. Cambridge, United Kingdom: Cambridge University Press. pp. 4. ISBN 978-0-511-16815-4
- ^ “GenBank”. Nucleic Acids Res. 36 (Database issue): D25-30. (January 2008). doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190 .
- ^ a b c “Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496-512. (July 1995). Bibcode: 1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800.
- ^ Carvajal-Rodriguez A (2012). “Simulation of Genes and Genomes Forward in Time”. Current Genomics 11 (1): 58-61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525 .
- ^ Brown, TA (2002). “Mutation, Repair and Recombination”. Genomes (2nd ed.). Manchester (UK): Oxford
- ^ Carter, N. P.; Fiegler, H.; Piper, J. (2002). “Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Cytometry Part A 49 (2): 43-48. doi:10.1002/cyto.10153. PMID 12357458.
- ^ Hiraoka, Satoshi; Yang, Ching-chia; Iwasaki, Wataru (2016). “Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond” (英語). Microbes and environments 31 (3): 204-212. doi:10.1264/jsme2.ME16024. ISSN 1342-6311. PMC 5017796. PMID 27383682 .
- ^ Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra (2016). “BPGA-an ultra-fast pan-genome analysis pipeline”. Scientific Reports 6: 24373. Bibcode: 2016NatSR...624373C. doi:10.1038/srep24373. PMC 4829868. PMID 27071527 .
- ^ Aston KI (2014). “Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology 2 (3): 315-21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159.
- ^ “Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine 8 (2): 287-96. (2014). doi:10.2217/bmm.13.121. PMID 24521025.
- ^ “Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports 13 (10): 381. (2013). doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969 .
- ^ Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations. Methods in Molecular Biology. 1015. (2013). 127-46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853
- ^ Hindorff, L.A. (2009). “Potential etiologic and functional implications of genome-wide association loci for human diseases and traits”. Proc. Natl. Acad. Sci. USA 106 (23): 9362-9367. Bibcode: 2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294 .
- ^ Hall, L.O. (2010). Finding the right genes for disease and prognosis prediction. 1-2. doi:10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2
- ^ Vazquez, Miguel; Torre, Victor de la; Valencia, Alfonso (2012-12-27). “Chapter 14: Cancer Genome Analysis” (英語). PLOS Computational Biology 8 (12): e1002824. Bibcode: 2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. ISSN 1553-7358. PMC 3531315. PMID 23300415 .
- ^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). “Second-Generation Sequencing for Cancer Genome Analysis”. In Dellaire, Graham; Berman, Jason N.; Arceci, Robert J.. Cancer Genomics. Boston (US): Academic Press. pp. 13-30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675
- ^ Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. (1 July 2006). “VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees”. Nucleic Acids Research 34 (Web Server): W529-W533. doi:10.1093/nar/gkl212. PMC 1538886. PMID 16845064 .
- ^ “The Human Protein Atlas”. www.proteinatlas.org. 2017年10月2日閲覧。
- ^ “The human cell”. www.proteinatlas.org. 2017年10月2日閲覧。
- ^ Thul, Peter J.; Åkesson, Lovisa; Wiking, Mikaela; Mahdessian, Diana; Geladaki, Aikaterini; Blal, Hammou Ait; Alm, Tove; Asplund, Anna et al. (2017-05-26). “A subcellular map of the human proteome”. Science 356 (6340): eaal3321. doi:10.1126/science.aal3321. PMID 28495876.
- ^ Ay, Ferhat; Noble, William S. (2 September 2015). “Analysis methods for studying the 3D architecture of the genome”. Genome Biology 16 (1): 183. doi:10.1186/s13059-015-0745-7. PMC 4556012. PMID 26328929 .
- ^ Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). “Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport”. Journal of Molecular Biology 371 (1): 168-79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601.
- ^ a b “Open Bioinformatics Foundation: About us”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。
- ^ “Open Bioinformatics Foundation: BOSC”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。
- ^ Brohée, Sylvain; Barriot, Roland; Moreau, Yves (2010). “Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases”. Bioinformatics 26 (17): 2210-2211. doi:10.1093/bioinformatics/btq348. PMID 20591906 2015年5月5日閲覧。.
- ^ Nisbet, Robert (2009). “Bioinformatics”. Handbook of Statistical Analysis and Data Mining Applications. John Elder IV, Gary Miner. Academic Press. p. 328. ISBN 978-0080912035 2014年5月9日閲覧。
- ^ Commissioner. “Advancing Regulatory Science - Sept. 24-25, 2014 Public Workshop: Next Generation Sequencing Standards” (英語). www.fda.gov. 2017年11月30日閲覧。
- ^ Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). “Biocompute Objects ? A Step towards Evaluation and Validation of Biomedical Scientific Computations”. PDA Journal of Pharmaceutical Science and Technology 71 (2): 136-46. doi:10.5731/pdajpst.2016.006734. ISSN 1079-7440. PMC 5510742. PMID 27974626 .
- ^ Alterovitz, Gil; Dean, Dennis; Goble, Carole; Crusoe, Michael R.; Soiland-Reyes, Stian; Bell, Amanda; Hayes, Anais; Suresh, Anita et al. (2017-09-21) (英語). Enabling Precision Medicine via standard communication of HTS provenance, analysis, and results. doi:10.1101/191783 .
- ^ BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, (2017-09-03) 2017年11月30日閲覧。
- ^ Barker, D; Ferrier, D.E.K.; Holland, P.W; Mitchell, J.B.O; Plaisier, H; Ritchie, M.G; Smart, S.D. (2013). “4273π : bioinformatics education on low cost ARM hardware”. BMC Bioinformatics 14: 243. doi:10.1186/1471-2105-14-243. PMC 3751261. PMID 23937194 .
- ^ Barker, D; Alderson, R.G; McDonagh, J.L; Plaisier, H; Comrie, M.M; Duncan, L; Muirhead, G.T.P; Sweeny, S.D. (2015). “University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school”. International Journal of STEM Education 2 (17). doi:10.1186/s40594-015-0030-z.
- ^ McDonagh, J.L; Barker, D; Alderson, R.G. (2016). “Bringing computational science to the public”. SpringerPlus 5 (259): 259. doi:10.1186/s40064-016-1856-7. PMC 4775721. PMID 27006868 .
- ^ Robson, J.F.; Barker, D (2015). “Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer”. BMC Research Notes 8 (561): 561. doi:10.1186/s13104-015-1476-2. PMC 4604092. PMID 26462790 .
- ^ Wregglesworth, K.M; Barker, D (2015). “A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1”. BMC Research Notes 8 (565): 565. doi:10.1186/s13104-015-1535-8. PMC 4606965. PMID 26467441 .
固有名詞の分類
- バイオインフォマティクスのページへのリンク