正則化とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > 正則化の意味・解説 

せいそく‐か〔‐クワ〕【正則化】

読み方:せいそくか

統計学で、あるデータ統計モデル適用させる際に過剰適合起こらないようにすること。統計モデル関数に正則化項という関数複雑さを表す項を付与し誤差総和とともに正則化項の値を最小化することで、より適切な統計モデル得られる

ディープラーニングなどの機械学習における過学習を防ぐこと。ドロップアウトという手法知られる


正則化

日本語活用形辞書はプログラムで機械的に活用形や説明を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ

正則化

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/10/13 16:41 UTC 版)

数学統計学計算機科学において、特に機械学習逆問題において、正則化(せいそくか、: regularization)とは、不良設定問題を解いたり過学習を防いだりするために、情報を追加する手法である。モデルの複雑さに罰則を科すために導入され、なめらかでないことに罰則をかけたり、パラメータのノルムの大きさに罰則をかけたりする。

正則化の理論的正当化はオッカムの剃刀にある。ベイジアンの観点では、多くの正則化の手法は、モデルのパラメータの事前情報にあたる。

統計および機械学習における正則化

統計および機械学習において、正則化はモデルのパラメータの学習に使われ、特に過学習を防ぎ、汎化能力を高めるために使われる。

機械学習において最も一般的なのは L1 正則化 (p=1) と L2 正則化 (p=2) である。損失関数英語版 の代わりに、

を使用する。 はパラメータのベクトルで、 は L1 ノルム (p=1) や L2 ノルム (p=2) などである。 はハイパーパラメータで、正の定数で、大きくするほど正則化の効果が強くなるが、交差確認などで決める。

損失関数をパラメータで偏微分すると、

L2 正則化の場合
L1 正則化の場合

となり、これは、最急降下法確率的勾配降下法を使用する場合は、L2 正則化はパラメータの大きさに比例した分だけ、L1 正則化は だけ 0 に近づけることを意味する。

この手法は様々なモデルで利用できる。線形回帰モデルに利用した場合は、L1 の場合はラッソ回帰[1]、L2 の場合はリッジ回帰[2]と呼ぶ。ロジスティック回帰ニューラルネットワークサポートベクターマシン条件付き確率場 などでも使われる。ニューラルネットワークの世界では、L2 正則化は荷重減衰(: weight decay)とも呼ばれる。

L1 正則化

L1 正則化を使用すると、いくつかのパラメータを 0 にすることができる。つまり、特徴選択を行っていることになり、スパースモデルになる。0 が多いと疎行列で表現でき、高速に計算できる。しかし、L1 ノルムは評価関数に絶対値を含むため、非連続で微分不可能な点が存在する。勾配法を利用した最適化問題のアルゴリズムによっては変更が必要な場合がある[3][4]

損失関数が二乗和誤差の場合、L1 正則化は、パラメータの絶対値が λ 以下なら 0にし、そうで無いなら λ だけ 0 に近づけるのと等価である。損失関数をパラメータで偏微分することで確認できる。よって、小さな値のパラメータが 0 になる。

機械学習の手法において、データが平均0分散1に正規化されていないと上手く動作しないものが多いが、L1 正則化において全てのパラメータで同じように λ ずつ減らすということは、同じようなスケーリングでなければならず、平均0分散1に正規化されていないと上手く働かない。

L0 正則化

L0 正則化 とは 0 では無いパラメータの数で正則化する方法のこと。ただし、組み合わせ最適化問題になるため、計算コストが非常に高いという問題がある。パラメータ数が多い場合は貪欲法を利用し、近似解を得る。線形モデルであれば残すパラメータを決めるのに一般化交差確認が利用できる。

情報量規準

事前確率を使用するベイジアン学習法では、複雑なモデルにより小さな確率を割り振ることができる。よく使われるモデル選択手法としては、赤池情報量規準(AIC)、最小記述長(MDL)、ベイズ情報量規準(BIC)などがある。

線形モデルでの手法

下記は一般化線形モデルで使用される正則化の手法の一覧である。

モデル 適合尺度 エントロピー尺度[5][6]
赤池情報量規準/ベイズ情報量規準
リッジ回帰[2]
ラッソ回帰[1]
エラスティックネット[7]
基底追跡ノイズ除去
Rudin-Osher-Fatemi モデル (TV)
Potts モデル
RLAD[8]
Dantzig 選択器[9]
SLOPE[10]

逆問題における正則化

1943年に Andrey Nikolayevich Tikhonov が、L2 正則化をより一般化した Tikhonov 正則化を逆問題に対する手法として発表した[11]。詳細は逆問題を参照。

関連項目

参照

  1. ^ a b Tibshirani, Robert (1996). “Regression Shrinkage and Selection via the Lasso”. Journal of the Royal Statistical Society, Series B 58 (1): 267–288. doi:10.1111/j.2517-6161.1996.tb02080.x. ISSN 1369-7412. JSTOR 2346178. MR 1379242. http://statweb.stanford.edu/~tibs/lasso/lasso.pdf. 
  2. ^ a b Arthur E. Hoerl; Robert W. Kennard (1970). “Ridge regression: Biased estimation for nonorthogonal problems”. Technometrics 12 (1): 55-67. 
  3. ^ Galen Andrew; Jianfeng Gao (2007). “Scalable training of L₁-regularized log-linear models”. Proceedings of the 24th International Conference on Machine Learning. doi:10.1145/1273496.1273501. ISBN 9781595937933. 
  4. ^ Tsuruoka, Y.; Tsujii, J.; Ananiadou, S. (2009). “Stochastic gradient descent training for l1-regularized log-linear models with cumulative penalty”. Proceedings of the AFNLP/ACL. http://aclweb.org/anthology-new/P/P09/P09-1054.pdf 
  5. ^ Bishop, Christopher M. (2007). Pattern recognition and machine learning (Corr. printing. ed.). New York: Springer. ISBN 978-0387310732 
  6. ^ Duda, Richard O. (2004). Pattern classification + computer manual : hardcover set (2. ed.). New York [u.a.]: Wiley. ISBN 978-0471703501 
  7. ^ by Hui Zou; Trevor Hastie (2005). “Regularization and variable selection via the Elastic Net”. Journal of the Royal Statistical Society, Series B. https://web.stanford.edu/~hastie/Papers/B67.2%20(2005)%20301-320%20Zou%20&%20Hastie.pdf. 
  8. ^ Li Wang, Michael D. Gordon & Ji Zhu (2006). “Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning”. Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134 
  9. ^ Candes, Emmanuel; Tao, Terence (2007). “The Dantzig selector: Statistical estimation when p is much larger than n”. Annals of Statistics 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR 2382644. 
  10. ^ Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J. Candes (2013). “Statistical estimation and testing via the ordered L1 norm”. arXiv preprint arXiv:1310.1969. arXiv:1310.1969v2. 
  11. ^ Tikhonov, Andrey Nikolayevich (1943). “Об устойчивости обратных задач [On the stability of inverse problems]”. Doklady Akademii Nauk SSSR 39 (5): 195–198. 

正則化

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/12/01 22:34 UTC 版)

過剰適合」の記事における「正則化」の解説

詳細は「正則化」を参照 機械学習統計学において、媒介変数を減らすのではなく誤差関数に正則化項を追加してモデルの複雑度・自由度抑制加え過学習を防ぐ方法がある。L2 正則化や L1 正則化などがある。 サポートベクターマシンにおいては媒介変数パラメータ)を減らすのではなくマージン最大化することにより、過学習防いでいて、これも、L2 正則化と同じよう手法基づいている。

※この「正則化」の解説は、「過剰適合」の解説の一部です。
「正則化」を含む「過剰適合」の記事については、「過剰適合」の概要を参照ください。

ウィキペディア小見出し辞書の「正則化」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「正則化」の関連用語

正則化のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



正則化のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの正則化 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの過剰適合 (改訂履歴)、N体シミュレーション (改訂履歴)、特徴選択 (改訂履歴)、勾配ブースティング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS