交差エントロピー誤差関数とロジスティック回帰
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/10/23 03:20 UTC 版)
「交差エントロピー」の記事における「交差エントロピー誤差関数とロジスティック回帰」の解説
交差エントロピーは機械学習および最適化における損失関数を定義するために使うことができる。真の確率 p i {\displaystyle p_{i}} が真のラベルであり、与えられた分布 q i {\displaystyle q_{i}} が現在のモデルの予測値である。 より具体的に、ロジスティック回帰を考えてみる。ロジスティック回帰は(その最も基本的な形式において)任意のデータ点のセットを2つの可能なクラス(一般的に 0 {\displaystyle 0} および 1 {\displaystyle 1} とラベル付けされる)への分類を扱う。ロジスティック回帰モデルはしたがって入力ベクトル x {\displaystyle \mathbf {x} } を与えられると出力 y ∈ { 0 , 1 } {\displaystyle y\in \{0,1\}} を予測する。確率はロジスティック関数 g ( z ) = 1 / ( 1 + e − z ) {\displaystyle g(z)=1/(1+e^{-z})} を使ってモデル化される。すなわち、出力 y = 1 {\displaystyle y=1} を見出す確率は式 q y = 1 = y ^ ≡ g ( w ⋅ x ) = 1 / ( 1 + e − w ⋅ x ) {\displaystyle q_{y=1}\ =\ {\hat {y}}\ \equiv \ g(\mathbf {w} \cdot \mathbf {x} )\ =1/(1+e^{-\mathbf {w} \cdot \mathbf {x} })} によって与えられる。上式において、重み w {\displaystyle \mathbf {w} } のベクトルは最急降下法といったいくつかの適切なアルゴリズムによって最適化される。同様に、出力 y = 0 {\displaystyle y=0} を見出す余事象の確率は式 q y = 0 = 1 − y ^ {\displaystyle q_{y=0}\ =\ 1-{\hat {y}}} によって与えられる。 真の(観察された)確率は同様に p y = 1 = y {\displaystyle p_{y=1}=y} および p y = 0 = 1 − y {\displaystyle p_{y=0}=1-y} として表すことができる。 本記事の記法を使って p ∈ { y , 1 − y } {\displaystyle p\in \{y,1-y\}} 、 q ∈ { y ^ , 1 − y ^ } {\displaystyle q\in \{{\hat {y}},1-{\hat {y}}\}} とすると、 p {\displaystyle p} と q {\displaystyle q} との間の非類似性の尺度を得るために交差エントロピーを使うことができる。 H ( p , q ) = − ∑ i p i log q i = − y log y ^ − ( 1 − y ) log ( 1 − y ^ ) {\displaystyle H(p,q)\ =\ -\sum _{i}p_{i}\log q_{i}\ =\ -y\log {\hat {y}}-(1-y)\log(1-{\hat {y}})} ロジスティック回帰で用いられる典型的な損失関数は、サンプル中の全ての交差エントロピーの平均を取ることによって計算される。例えば、それぞれのサンプルが n = 1 , … , N {\displaystyle n=1,\dots ,N} によってラベル付けされた N {\displaystyle N} 個のサンプルを持っていることを仮定する。損失関数は次に以下の式となる。 J ( w ) = 1 N ∑ n = 1 N H ( p n , q n ) = − 1 N ∑ n = 1 N [ y n log y ^ n + ( 1 − y n ) log ( 1 − y ^ n ) ] , {\displaystyle {\begin{aligned}J(\mathbf {w} )\ &=\ {\frac {1}{N}}\sum _{n=1}^{N}H(p_{n},q_{n})\ =\ -{\frac {1}{N}}\sum _{n=1}^{N}\ {\bigg [}y_{n}\log {\hat {y}}_{n}+(1-y_{n})\log(1-{\hat {y}}_{n}){\bigg ]}\,,\end{aligned}}} 上式において、 y ^ n ≡ g ( w ⋅ x n ) = 1 / ( 1 + e − w ⋅ x n ) {\displaystyle {\hat {y}}_{n}\equiv g(\mathbf {w} \cdot \mathbf {x} _{n})=1/(1+e^{-\mathbf {w} \cdot \mathbf {x} _{n}})} であり、 g ( z ) {\displaystyle g(z)} はロジスティック関数である。 ロジスティック損失は交差エントロピー損失と呼ばれることがある。また、log lossとも呼ばれる(この場合、二値ラベルは {-1,+1} で示されることが多い)。
※この「交差エントロピー誤差関数とロジスティック回帰」の解説は、「交差エントロピー」の解説の一部です。
「交差エントロピー誤差関数とロジスティック回帰」を含む「交差エントロピー」の記事については、「交差エントロピー」の概要を参照ください。
- 交差エントロピー誤差関数とロジスティック回帰のページへのリンク