スレッディング (タンパク質)

索引トップランキングカテゴリー

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2024/04/07 21:12 UTC 版)

タンパク質構造の分類

タンパク質立体構造分類データベース（SCOP）データベースは、既知の構造の構造的および進化的関係の詳細かつ包括的な記述を提供している。タンパク質は、構造的な関連性と進化的な関連性の両方を反映するように分類される。階層には多くのレベルが存在するが、主要なレベルは次に説明するように、ファミリー、スーパーファミリー、フォールドである。

ファミリー（進化上の関係が明確）：ファミリーに分類されたタンパク質は、進化上の関係が明確である。一般に、これはタンパク質間のペアワイズ残基同一性が30%以上であることを意味する。しかし、配列同一性が高くなくても、機能や構造が類似していれば、共通祖先であることの決定的な証拠となる場合もある。たとえば、多くのグロビンがファミリーを形成しているが、配列同一性が15％しかないメンバーもある。

スーパーファミリー（おそらく共通進化的起源）：配列同一性は低いが、その構造的および機能的特徴から進化的起源が共通である可能性が高いことを示唆するタンパク質をまとめてスーパーファミリーとする。たとえば、アクチン、熱ショックタンパク質のATPaseドメイン、およびヘキサキナーゼが一緒になってスーパーファミリーを形成している。

フォールド（主要構造の類似性）：タンパク質は、同じ配列内で同じ主要な二次構造を持ち、同じトポロジー的な接続を持つ場合、共通のフォールドを持つと定義される。同じフォールドを持つ異なるタンパク質でも、二次構造の周辺要素や、ターン領域のサイズやコンフォメーションが異なることが多い。場合によっては、これらの異なる周辺領域が構造の半分を占めることがある。同じフォールドカテゴリーにまとめられたタンパク質が、進化的に共通の起源を持っているとは限らない。その構造的な類似性は、タンパク質の物理的および化学的性質が、ある種のパッキング配置や鎖トポロジーを好都合とすることから生じている可能性がある。

方法

タンパク質スレッディングの一般的なパラダイムは、次の4つのステップで構成されている。

構造テンプレートデータベースの構築：タンパク質構造データベースからタンパク質構造を構造テンプレートとして選択する。これは一般的に、PDB、FSSP、SCOP、CATHなどのデータベースから、配列類似性が高いタンパク質構造を削除した上で、タンパク質構造を選択することを伴う。

スコアリング関数の設計：構造と配列の間における既知の関係の知識に基づいて、ターゲット配列とテンプレートの間の適合性を測定するための優れたスコアリング関数を設計する。優れたスコアリング関数には、突然変異の可能性、環境適合性の可能性、ペアワイズの可能性、二次構造の適合性、およびギャップペナルティが含まれている必要がある。エネルギー関数の質は、予測精度、特にアライメント精度と密接に関係している。

スレッディングアライメント：設計されたスコアリング関数で最適化を行うことで、ターゲット配列を各構造テンプレートに整列させる。このステップは、ペアワイズ接触可能性を考慮に入れたすべてのスレッドベースの構造予測プログラムの主要なタスクの1つである。さもなければ、動的計画法アルゴリズムがそれを満たすことができる。

スレッディング予測：統計的に最も可能性の高いスレッディングアライメントをスレッディング予測として選択する。次に、選択された構造テンプレートの配置されたバックボーン位置にターゲット配列のバックボーン原子を配置して、ターゲットの構造モデルを構築する。

ホモロジーモデリングとの比較

ホモロジーモデリング（英語版）とタンパク質スレッディングはどちらもテンプレートベースの方法であり、予測技術の観点からは厳密な境界はない。しかし、それらのターゲットのタンパク質構造は異なる。ホモロジーモデリングは、構造がわかっている相同タンパク質（通常/おそらく同じファミリー）があるターゲット用であるのに対し、タンパク質スレッディングは、フォールドレベルの相同性のみが分かっているターゲット用である。言い換えれば、ホモロジーモデリングは「より簡単な」ターゲット用で、タンパク質スレッディングは「より難しい」ターゲット用である。

ホモロジーモデリングでは、アライメント内のテンプレートを配列として扱い、配列相同性のみを予測に使用する。タンパク質スレッディングは、アライメント内のテンプレートを構造として扱い、アライメントから抽出した配列と構造の両方の情報を予測に使用する。有意な相同性が見つからない場合、タンパク質スレッディングは構造情報に基づいて予測を行うことができる。それはまた、多くの場合で、ホモロジーモデリングよりもタンパク質スレッディングの方が効果的であることの説明にもなる。

実際には、配列アライメントにおける配列同一性が低い場合（つまり25%未満）、ホモロジーモデリングでは有意な予測が得られない場合がある。この場合、ターゲットに対して遠方の相同性が見つかれば、タンパク質スレッディングによって適切な予測を生成できる。

スレッディングの詳細

フォールド認識方法は、大きく2つのタイプに分けられる。1つは、フォールドライブラリの各構造について1次元プロファイル（特性）を導出し、これらのプロファイルにターゲット配列を整列する方法で、もう1つは、タンパク質テンプレートの完全な3次元構造を考慮するものである。プロファイル表現の簡単な例として、構造内の各アミノ酸を取りあげ、それがタンパク質のコア内に埋まっているか、表面に露出しているかによって単純にラベル付けすることがあげられる。より精巧なプロファイルでは、局所的な二次構造（たとえば、アミノ酸がαヘリックスの一部であるか否か）や、進化的情報（アミノ酸がどのように保存されているか）を考慮に入れることも考えられる。3次元表現では、構造は原子間距離の集合としてモデル化される。つまり、構造内の一部またはすべての原子ペアの間の距離が計算される。これは、構造のはるかに豊富で柔軟な記述であるが、アライメントの計算に使用するのは非常に困難である。プロファイルベースのフォールド認識アプローチは、1991年にBowie、Lüthy、David Eisenberg（英語版）によって最初に説明された^[1]。スレッディングという用語は、1992年にDavid Jones（英語版）、William R. Taylor、Janet Thornton（英語版）によって最初に作られたもので^[2]、当初は、フォールド認識におけるタンパク質テンプレートで完全な3次元構造の原子表現の使用を特に指していた。現在では「スレッディング」と「フォールド認識」という用語は（やや間違ってはいるが）同じ意味で使われることが多い。

フォールド認識法が広く利用され効果を発揮しているのは、自然界には厳密に限られた数のさまざまなタンパク質フォールドが存在すると考えられているからである。これは主に進化の結果であるが、ポリペプチド鎖の基本的な物理学的および化学的な制約にも起因するものである。そのため、ターゲットタンパク質と類似のフォールドを持つタンパク質が、X線結晶構造解析や核磁気共鳴分光法（NMR）などですでに研究され、PDBに登録されている可能性が高い（現在は70～80％）。現在、約1300種類のタンパク質フォールドが知られており、進行中の構造ゲノミクスプロジェクトの重要な活動により、毎年新規フォールドが発見されている。

配列を構造に正しくスレッディングさせるためのアルゴリズムは数多く提案されているが、その多くは何らかの形で動的計画法を利用している。完全な3次元スレッディングの場合、最適なアライメントを特定する問題は非常に困難である（スレッディングのいくつかのモデルではNP困難な問題となる）。研究者たちは、条件付き確率場、シミュレーテッド・アニーリング、分枝限定法、線型計画法など、多くの組み合わせ最適化手法を用いて、ヒューリスティックな解決策を目指してきた。スレッディング法を、2つのタンパク質構造を整列させようとする手法（タンパク質構造アライメント（英語版））と比較するのは興味深いことであり、実際、同じアルゴリズムの多くが両方の問題に適用されている。