グラフ理論に基づいた記法の定義
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/08/20 17:56 UTC 版)
「SMILES記法」の記事における「グラフ理論に基づいた記法の定義」の解説
グラフ理論に基づくコンピュータ処理の観点では、SMILESは分子グラフ(英語版)を深さ優先で走査して、節点(原子)と辺(結合)を表現する文字列である。分子グラフの構築では、まず系の水素原子を取り除き(ただし不斉中心を除く)、環を形成しているところは切り開いて全域木(spanning tree)に変換する。環を開いたところには数字でラベル付け(後置)して、つながっていた節点同士を示す。丸括弧(parenthesis, ())は木が分枝している場所を表すのに使用する。 原子は角括弧(bracket, [])でくくられるが、organic subset、すなわち B, C, N, O, P, S, F, Cl, Br, I のいずれかで、形式電荷を持たず、同位体を陽に指定する必要がなく、かつ不斉中心でない場合は[]を省略してもよい。この場合は原子価に基づいて水素が暗黙的に付加しているものとみなされる。たとえばO、Nはそれぞれ水、アンモニアである(水素を陽に書くと[H]O[H]などになるが、このように書かれることはほとんどない)。形式電荷を持っている場合は+-と数字を後置する(たとえばアンモニウムイオンは[NH4+]、鉄 (II) は[Fe+2])。同位体を陽に指定する場合は質量数を整数で前置する(たとえば炭素14は[14C])。不斉中心については後述する。 結合は一重から順に-、=、#で、芳香環(1.5重結合)では:で表される(ただし一重結合-は通常省略される)。OpenSMILES 拡張で四重結合は$ である。二重結合=につながっている一重結合の向きを/、\で表すことでシス-トランス異性体を区別する。たとえばC/C=C\C、C/C=C/Cはそれぞれシス・トランス2-ブテンである。結合がないことは.で表現される(たとえば過酸化水素OOに対しO.Oは水2分子)。 環構造ではつながっている原子の後ろに数字でラベル付けする。たとえばプロパンとシクロプロパンをSMILESで表すとそれぞれCCC、 C1CC1となる。ラベルの数字は1つの原子に1つが原則だが、あるラベルがすでに2箇所に現れ、その2箇所のペアが同一の原子であることを示す役目を終えた場合は、その数字を別のペアのために再利用してもよい。ラベルは一桁の数字とみなされ、たとえばC12はラベル1、2につながっている炭素である。二桁のラベルを表すには%を前置する(たとえばC%12はラベル12)。 芳香環を構成する原子(炭素、窒素、酸素、リン、硫黄、ヒ素、セレン;OpenSMILES 拡張ではさらにホウ素)は小文字にする。例えばシクロヘキサンC1CCCCC1に対しベンゼンはc1ccccc1である。芳香環の結合を一重・二重結合で表すこと(ベンゼンを1,3,5-シクロヘキサトリエンのようにC1=CC=CC=C1)をケクレ化 (英語: kekulization) とよぶことがある。 不斉中心には@または@@を後置し、根の方向から見てそれぞれ左回り・右回りに後続の原子団が並んでいることを表す(@が左回りのため)。たとえばS-アラニンのSMILESは、アミノ基を根にするとN[C@@H](C)C(=O)Oである(N[C@@]([H])(C)C(=O)Oのように書いてもよい)。 ある系についてのSMILESは必ずしも一意に定まらず、たとえばS-アラニンは上記のSMILESだけでなく、C[C@H](N)C(=O)O、C[C@@H](C(=O)O)N、OC(=O)[C@H](C)Nなどでも表すことができる。そのため、あるアルゴリズムに基づいて系に対し一意になるよう変換したものを、正規化された(canonical)SMILESと呼ぶ。ただし、データベースやプログラムによってはアルゴリズムが違うことがある。 化学反応は原系>>生成系または原系>触媒など>生成系で表される。たとえばプロペンに水が付加してプロパン-2-オールができる反応はCC=C.O>>CC(O)Cである。 詳細についてはやを参照すること。
※この「グラフ理論に基づいた記法の定義」の解説は、「SMILES記法」の解説の一部です。
「グラフ理論に基づいた記法の定義」を含む「SMILES記法」の記事については、「SMILES記法」の概要を参照ください。
- グラフ理論に基づいた記法の定義のページへのリンク