タンパク質の構造や配列を分類するための用語
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/05/04 06:25 UTC 版)
「タンパク質構造予測」の記事における「タンパク質の構造や配列を分類するための用語」の解説
タンパク質間の進化と構造の関係についてより一般的に使用される用語を以下に示す。この他にも、タンパク質のさまざまな種類の構造上の特徴を表す、多くの追加用語が使いられる。このような用語の説明は、CATH Webサイト、タンパク質立体構造分類データベース(SCOP)Webサイト、スイスのバイオインフォマティクスExpasy Webサイトに掲載されているグラクソ・ウエルカムチュートリアルなどに掲載されている。 活性部位 化学的に特異的な基質と相互作用することができ、タンパク質に生物学的活性を与える、三次構造(三次元)または四次構造(タンパク質サブユニット)内のアミノ酸側鎖の局所的な組み合わせのこと。全く異なるアミノ酸配列のタンパク質は、同じ活性部位を持つ構造に折りたたまれることがある。 アーキテクチャ 三次元構造における二次構造の相対的な向きであり、類似のループ構造を共有しているかどうかに関わらず表したもの。 折りたたみ(トポロジー) 保存ループ構造を持つアーキテクチャの一種。 ブロック タンパク質ファミリーの保存アミノ酸配列パターン。そのパターンには、表現された配列上の各位置にマッチする可能性のある一連のものが含まれているが、パターンにも配列にも挿入や削除の位置はない。対照的に、配列プロファイルは、挿入や削除を含む類似のパターンの集まりを表すスコアリングマトリックスの一種である。 クラス(英語版) タンパク質ドメインを、二次構造の内容や構成に応じて分類するための用語。LevittとChothia (1976)によって4つのクラス(英語版)が最初に認識され、他にもいくつかのクラスがSCOPデータベースに追加されている。CATHデータベースでは、All-α、All-β、α-βの3つのクラスがあり、α-βクラスには交互型のα/β構造と分離型のα+β構造の両方が含まれる。 コア 折りたたまれたタンパク質分子のうち、αヘリックスとβシートの疎水性内部を構成する部分。コンパクトな構造により、アミノ酸の側鎖が十分に接近しているため、相互作用することができる。SCOPデータベースのようにタンパク質構造を比較する場合、コアとは、共通のフォールドを持つ、または同じスーパーファミリーにあるほとんどの構造に共通する領域である。構造予測では、進化の過程で保存される可能性の高い二次構造の配列をコアと定義することがある。 ドメイン(配列の文脈) ポリペプチド鎖上の他のセグメントの存在にかかわらず、三次元構造に折りたたむことができるポリペプチド鎖のセグメント。あるタンパク質の別個のドメインは、広範囲に渡って相互作用することもあれば、ポリペプチド鎖の長さのみで結合することもある。複数のドメインを持つタンパク質は、異なる分子との機能的な相互作用のために、これらのドメインを使用する場合がある。 ファミリー(配列の文脈) 整列させたときに50%以上の同一性がある生化学的機能が類似したタンパク質のグループ。この判断基準は、現在もタンパク質情報資源(英語版)(PIR)で使用されている。タンパク質ファミリーは、異なる生物で同じ機能を持つタンパク質(オーソロガス配列)で構成されているが、遺伝子の重複や再配列に由来する同一生物のタンパク質(パラロガス配列)が含まれる場合もある。あるタンパク質ファミリーの多重整列の結果、タンパク質の長さ全体で共通レベルの類似性が見られる場合、PIRはそのファミリーを相同ファミリーと呼んでいる。整列した領域は相同ドメインと呼ばれ、この領域は他のファミリーと共有されるいくつかの小さな相同ドメインから構成されている場合がある。ファミリーは、配列類似性の高レベルまたは低レベルに基づいて、さらにサブファミリーに細分化されたり、スーパーファミリーにグループ化される。SCOPデータベースでは1296ファミリーが、CATHデータベース(バージョン1.7ベータ版)では1846ファミリーが報告されている。:同じ機能を持つタンパク質の配列を詳しく調べると、類似性が高い配列を共有しているものがある。上記の基準では、これらは明らかに同じファミリーの一員である。しかし、他のファミリーメンバーとの配列の類似性がほとんどないか、あるいはわずかであるものも見られる。このような場合、2つの遠縁のファミリーメンバーAとCの間のファミリー関係は、AとCの両方に有意な類似性を共有する追加のファミリーメンバーBを見つけることによって説明されることがよくある。このように、BはAとCの間をつなぐ役割を果たす。もう一つの方法は、遠くのアライメントを調べて、保存度が高い一致を探すことである。 同一性レベルが50%の場合、タンパク質は同じ三次元構造を持つ可能性が高く、配列アライメントの同一の原子は構造モデルにおいても約1Åの範囲で重なり合う。このように、あるファミリーで1つ目のメンバーの構造がわかっていれば、そのファミリーの別のメンバーについても信頼性の高い立体構造を予測できる可能性があり、同一性レベルが高いほど、その予測の信頼性は高くなる。タンパク質の構造モデリングは、アミノ酸の置換が三次元構造のコアにどれだけ適合するかを調べることで行うことができる。 ファミリー(構造の文脈) FSSPデータベース(構造類似タンパク質ファミリーのデータベース)やDALI/FSSP Webサイトで使用されているように、構造的に有意なレベルで類似しているが、必ずしも有意な配列の類似性を持たない2つの構造。 折りたたみ(フォールディング) 構造モチーフと同様で、同じ構成の二次構造単位のより大きな組み合わせを含む。このように、同じ折りたたみを持つタンパク質は、二次構造の組み合わせが同じで、同じようなループで結ばれている。例えば、いくつかの交互αヘリックスと平行β-ストランドからなるロスマンフォールドがあげられる。SCOP、CATH、FSSPのデータベースでは、既知のタンパク質構造が、構造の複雑さに応じて階層的に分類されていて、その基本レベルは「フォールド(折りたたみ)」が用いられている。 相同ドメイン(配列の文脈) 一般的に配列アラインメント法によって見出される拡張配列パターン。これは、整列された配列間における共通の進化的起源を示す。相同ドメインは一般的にモチーフよりも長い。ドメインは、与えられたタンパク質配列のすべてを含むこともあれば、配列の一部のみを含む場合もある。ドメインの中には複雑なものもあり、進化の過程でいくつかの小さな相同ドメインが結合して大きなドメインになったものもある。配列全体をカバーするドメインは、PIR(タンパク質情報資源(英語版))によって相同ドメインと呼ばれている。 モジュール 1つまたは複数のモチーフからなる保存アミノ酸パターンの領域で、構造または機能の基本単位と考えられているもの。モジュールの存在は、タンパク質をファミリーに分類するのにも使用されている。 モチーフ(配列の文脈) 2つ以上のタンパク質に見られる、保存アミノ酸パターン。Prositeカタログ(英語版)では、モチーフとは、生化学的に同じような活性を持つタンパク質のグループに見られるアミノ酸パターンで、多くの場合、タンパク質の活性部位の近くにある。配列モチーフデータベースの例としては、PrositeカタログやStanford Motifs Databaseなどがある。 モチーフ(構造の文脈) ポリペプチド鎖の隣接する部分が特定の三次元構造に折りたたまれることによって生じる、いくつかの二次構造要素の組み合わせである。たとえば、ヘリックス-ループ-ヘリックスのモチーフがある。構造モチーフは、超二次構造や超二次フォールドとも呼ばれる。 位置特異的スコアリングマトリックス(英語版)(配列の文脈) ギャップのない多重整列における保存領域を表す。マトリックスの各列は、多重整列の1列に見られるバリエーションを表す。ウェイトマトリックスまたはスコアリングマトリックスとも呼ばれる。 位置特異的スコアリングマトリックス-3D (構造の文脈) 同じ構造クラスに分類されるタンパク質のアライメントに見られるアミノ酸のバリエーションを表す。マトリックスの列は、整列した構造体の1つのアミノ酸位置で見つかったアミノ酸のバリエーションを表している。 プロファイル(英語版)(配列の文脈) タンパク質ファミリーの多重整列を表すスコアリングマトリックス。プロファイルは、通常、多重整列の中で「よく保存された領域」から取得される。プロファイルはマトリックスの形式で、各列はアライメント内の位置を表し、各行はアミノ酸の1つを表す。マトリックスの値は、各アミノ酸がアライメントの対応する位置にある可能性を示す。プロファイルはターゲット配列に沿って移動され、動的計画法アルゴリズムによって最良のスコアリング領域を見つだす。マッチング時のギャップは許容されており、このケースにはアミノ酸がマッチしなかった場合の負のスコアであるギャップペナルティが含まれる。配列プロファイルは、隠れマルコフモデルで表すこともでき、プロファイルHMMと呼ばれる。 プロファイル(構造の文脈) 既知のタンパク質構造の連続した位置に、どのアミノ酸がうまく適合し、どのアミノ酸がうまく適合しないのかを表すスコアリングマトリックス。プロファイルの列は構造内の連続した位置を表し、プロファイルの行は20個のアミノ酸を表している。配列プロファイルと同様に、構造プロファイルもターゲット配列に沿って移動され、動的計画法アルゴリズムにより、可能な限り高いアライメントスコアを見つだす。ギャップが含まれ、ペナルティを受ける場合がある。得られたスコアは、対象となるタンパク質がそのような構造をとる可能性を示すものである。 一次構造 タンパク質の直鎖状のアミノ酸配列のこと。化学的には、アミノ酸がペプチド結合で結合したポリペプチド鎖である。 二次構造 ポリペプチド鎖を構成するアミノ酸のC、O、NH基間の相互作用により、αヘリックス、βシート、ターン、ループ、およびその他の形態が形成され、三次元構造への折りたたみが促進されること。 三次構造 三次構造とは、ポリペプチド鎖の二次構造が折り重なってできた立体的な構造または球状の構造のこと。 四次構造 複数の独立したポリペプチド鎖からなるタンパク質分子の三次元構造。 スーパーファミリー 遠く離れていても検出可能な配列類似性によって関連している、同じまたは異なる長さのタンパク質ファミリーのグループ。このように、あるスーパーファミリーのメンバーは、共通の進化的起源を持っている。もともとはDayhoffが、スーパーファミリーであることの判断基準を、アライメントスコアに基づいて、配列が関連していない可能性が10 6であると定義した(Dayhoff et al. 1978)。配列アライメントの同一性が低いタンパク質でも、納得のゆく共通の数の構造的および機能的な特徴を持っていれば、同じスーパーファミリーに分類される。スーパーファミリータンパク質は、三次元構造のレベルでは共通の折りたたみなどの構造的特徴を共有するが、二次構造の数や配置が異なる場合もある。 PIRリソースでは、同相スーパーファミリー(homeomorphic superfamily)という言葉を使用して、配列の端から端までを揃えることができ、単一の配列相同性ドメイン(配列全体に広がる類似性のある領域)を共有しているスーパーファミリーのことを指す。このドメインは、他のタンパク質ファミリーやスーパーファミリーと共有される、より小さな相同性ドメインから構成されている可能性もある。あるタンパク質の配列には、複数のスーパーファミリーに属するドメインが含まれている可能性があり、複雑な進化の歴史を示しているが、多重整列全体の類似性が認められれば、配列は1つの同相スーパーファミリーにのみ割り当てられる。また、スーパーファミリーのアライメントには、アライメント内またはアライメントの両端で整列しない領域が含まれる場合がある。対照的に、同じファミリーの配列は、アラインメント全体を等してうまく整列する。
※この「タンパク質の構造や配列を分類するための用語」の解説は、「タンパク質構造予測」の解説の一部です。
「タンパク質の構造や配列を分類するための用語」を含む「タンパク質構造予測」の記事については、「タンパク質構造予測」の概要を参照ください。
- タンパク質の構造や配列を分類するための用語のページへのリンク