ベイジアン解釈
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/14 00:44 UTC 版)
係数の事前分布として正規分布を仮定した場合のMAP推定値がリッジ回帰に相当するのと同様に、係数の事前分布としてラプラス分布を仮定した場合のMAP推定値がラッソ回帰に相当する。 ラプラス分布はゼロで鋭くピークに達し(その1次導関数は不連続)、確率分布は正規分布よりもゼロに近く集中する。このことからも、なぜラッソ回帰では一部の係数をゼロに設定する傾向があるのに、リッジ回帰はそうではないのか、ということを説明できる。 p ( y , β ∣ X ) = p ( y ∣ β , X ) p ( β ∣ X ) = ∏ n = 1 N p ( y n ∣ β , x n ) ∏ k = 0 K p ( β k ) {\displaystyle p(\mathbf {y} ,{\boldsymbol {\beta }}\mid \mathbf {X} )=p(\mathbf {y} \mid {\boldsymbol {\beta }},\mathbf {X} )\;p({\boldsymbol {\beta }}\mid \mathbf {X} )=\prod _{n=1}^{N}p(y_{n}\mid {\boldsymbol {\beta }},\mathbf {x} _{n})\;\prod _{k=0}^{K}p(\beta _{k})} すなわち、 log p ( y , β ∣ X ) = ∑ n = 1 N log p ( y n ∣ β , x n ) + ∑ k = 0 K log p ( β k ) {\displaystyle \log {p(\mathbf {y} ,{\boldsymbol {\beta }}\mid \mathbf {X} )}=\sum _{n=1}^{N}\log {p(y_{n}\mid {\boldsymbol {\beta }},\mathbf {x} _{n})}+\sum _{k=0}^{K}\log {p(\beta _{k})}} である。 ここで、 y {\displaystyle \mathbf {y} } の事前分布として平均 X β {\displaystyle \mathbf {X} {\boldsymbol {\beta }}} 、分散 σ 2 {\displaystyle \sigma ^{2}} の正規分布を仮定すると、右辺第1項は ∑ n = 1 N log ( 1 2 π σ exp ( − ( y n − x n ⊤ β ) 2 2 σ 2 ) ) = − N log ( 2 π σ ) − 1 2 σ 2 ∑ n = 1 N ( y n − x n ⊤ β ) 2 {\displaystyle \sum _{n=1}^{N}\log {\left({\frac {1}{{\sqrt {2\pi }}\,\sigma }}\exp {\left(-{\frac {(y_{n}-\mathbf {x} _{n}^{\top }{\boldsymbol {\beta }})^{2}}{2\sigma ^{2}}}\right)}\right)}=-N\log({\sqrt {2\pi }}\,\sigma )-{\frac {1}{2\sigma ^{2}}}\sum _{n=1}^{N}(y_{n}-\mathbf {x} _{n}^{\top }{\boldsymbol {\beta }})^{2}} さらに、パラメータ β {\displaystyle {\boldsymbol {\beta }}} の事前分布として平均 0 {\displaystyle 0} 、分散 2 b 2 {\displaystyle 2b^{2}} のラプラス分布を仮定すると、右辺第2項は ∑ k = 0 K log ( 1 2 b exp ( − | β k | b ) ) = − ( K + 1 ) log ( 2 b ) − 1 b ∑ k = 0 K | β k | {\displaystyle \sum _{k=0}^{K}\log {\left({\frac {1}{2b}}\exp {\left(-{\frac {|\beta _{k}|}{b}}\right)}\right)}=-(K+1)\log(2b)-{\frac {1}{b}}\sum _{k=0}^{K}|\beta _{k}|} 以上から、 λ = 2 σ 2 b N {\displaystyle \lambda ={\frac {2\sigma ^{2}}{bN}}} を用いて次のように表される。 log p ( y , β ∣ X ) = − N 2 σ 2 ( 1 N ∑ n = 1 N ( y n − x n ⊤ β ) 2 + λ ∑ k = 0 K | β i | ) + c o n s t . {\displaystyle \log {p(\mathbf {y} ,{\boldsymbol {\beta }}\mid \mathbf {X} )}=-{\frac {N}{2\sigma ^{2}}}\left({\frac {1}{N}}\sum _{n=1}^{N}(y_{n}-\mathbf {x} _{n}^{\top }{\boldsymbol {\beta }})^{2}+\lambda \sum _{k=0}^{K}|\beta _{i}|\right)+\mathrm {const.} } 括弧内は、ラグランジュの未定乗数法に基づく記載と同等である。
※この「ベイジアン解釈」の解説は、「ラッソ回帰」の解説の一部です。
「ベイジアン解釈」を含む「ラッソ回帰」の記事については、「ラッソ回帰」の概要を参照ください。
- ベイジアン解釈のページへのリンク