他の情報量との関係
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/03/16 08:10 UTC 版)
相互情報量は次のようにも表せる。 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) {\displaystyle {\begin{aligned}I(X;Y)&{}=H(X)-H(X\mid Y)\\&{}=H(Y)-H(Y\mid X)\\&{}=H(X)+H(Y)-H(X,Y)\end{aligned}}} ここで、 H ( X ) {\displaystyle H(X)} と H ( Y ) {\displaystyle H(Y)} は周辺エントロピー、 H ( X ∣ Y ) {\displaystyle H(X\mid Y)} と H ( Y ∣ X ) {\displaystyle H(Y\mid X)} は条件付きエントロピー、 H ( X , Y ) {\displaystyle H(X,Y)} は X {\displaystyle X} と Y {\displaystyle Y} の結合エントロピーである。 H ( X ) ≥ H ( X ∣ Y ) {\displaystyle H(X)\geq H(X\mid Y)} であるため、これは上述の非負性とも一貫している。 直観的に、エントロピー H ( X ) {\displaystyle H(X)} が確率変数の不確かさの尺度であるとすれば、 H ( X ∣ Y ) {\displaystyle H(X\mid Y)} は「 Y {\displaystyle Y} を知った後にも残る X {\displaystyle X} の不確かさの量」と見ることができ、最初の行の右辺は「 X {\displaystyle X} の不確かさの量から Y {\displaystyle Y} を知った後に残った X {\displaystyle X} の不確かさの量を引いたもの」となり、「 Y {\displaystyle Y} を知ったことで削減される X {\displaystyle X} の不確かさの量」と等価である。これは、相互情報量が2つの確率変数について互いにもう一方を知ったことで得られる別の一方に関する情報量という直観的定義とも合っている。 離散の場合、 H ( X ∣ X ) = 0 {\displaystyle H(X\mid X)=0} であるから、 H ( X ) = I ( X ; X ) {\displaystyle H(X)=I(X;X)} となる。従って I ( X ; X ) ≥ I ( X ; Y ) {\displaystyle I(X;X)\geq I(X;Y)} であり、ある確率変数は他のどんな確率変数よりも自分自身についての情報を多くもたらすという基本原理が定式化されている。 相互情報量は、2つの確率変数 X {\displaystyle X} と Y {\displaystyle Y} の周辺分布の積 p ( x ) × p ( y ) {\displaystyle p(x)\times p(y)} と同時分布 p ( x , y ) {\displaystyle p(x,y)} のカルバック・ライブラー情報量で表すこともできる。 I ( X ; Y ) = D K L ( p ( x , y ) ∥ p ( x ) p ( y ) ) {\displaystyle I(X;Y)=D_{\mathrm {KL} }\left(p(x,y)\parallel p(x)p(y)\right)} さらに、 p ( x , y ) = p ( x ∣ y ) × p ( y ) {\displaystyle p(x,y)=p(x\mid y)\times p(y)} を用いて変形すると、次のようになる。 I ( X ; Y ) = ∑ y p ( y ) ∑ x p ( x ∣ y ) log 2 p ( x ∣ y ) p ( x ) = ∑ y p ( y ) D K L ( p ( x ∣ y ) ∥ p ( x ) ) = E Y { D K L ( p ( x ∣ y ) ∥ p ( x ) ) } {\displaystyle {\begin{aligned}I(X;Y)&{}=\sum _{y}p(y)\sum _{x}p(x\mid y)\log _{2}{\frac {p(x\mid y)}{p(x)}}\\&{}=\sum _{y}p(y)\;D_{\mathrm {KL} }\left(p(x\mid y)\parallel p(x)\right)\\&{}=\mathbb {E} _{Y}\{D_{\mathrm {KL} }\left(p(x\mid y)\parallel p(x)\right)\}\end{aligned}}} 従って、相互情報量は、 p ( x ∣ y ) {\displaystyle p(x\mid y)} の p ( x ) {\displaystyle p(x)} に対するカルバック・ライブラー情報量の期待値として解釈することもできる。ここで、 p ( x ∣ y ) {\displaystyle p(x\mid y)} は Y {\displaystyle Y} を与えられた時の X {\displaystyle X} の条件付き分布、 p ( x ) {\displaystyle p(x)} は X {\displaystyle X} の確率分布である。 p ( x ∣ y ) {\displaystyle p(x\mid y)} と p ( x ) {\displaystyle p(x)} の分布に差があればあるほど、情報利得(カルバック・ライブラー情報量)は大きくなる。
※この「他の情報量との関係」の解説は、「相互情報量」の解説の一部です。
「他の情報量との関係」を含む「相互情報量」の記事については、「相互情報量」の概要を参照ください。
- 他の情報量との関係のページへのリンク