lassoとは? わかりやすく解説

Weblio 辞書 > 学問 > 化学物質辞書 > lassoの意味・解説 

アラクロル

分子式C14H20ClNO2
その他の名称ラッソー、アラクロル、アラクロール、Lasso、Alachlor、CP-50144、2-Chloro-2',6'-diethyl-N-(methoxymethyl)acetanilide、2-Chloro-N-(2,6-diethylphenyl)-N-methoxymethylacetamide、アラネックス、アロクロル、ラゾ、メタクロル、Lazo、Alochlor、Alanex、ピラルゾ、Metachlor、Pillarzo、Methachlor、N-Chloroacetyl-N-methoxymethyl-2,6-diethylaniline、2-Chloro-N-(2,6-diethylphenyl)-N-(methoxymethyl)acetamide、N-(2,6-Diethylphenyl)-N-(methoxymethyl)chloroacetamide
体系名:N-(2,6-ジエチルフェニル)-N-(メトキシメチル)-2-クロロアセトアミド、N-(メトキシメチル)-N-(2,6-ジエチルフェニル)-2-クロロアセトアミド、2-クロロ-N-(2,6-ジエチルフェニル)-N-メトキシメチルアセトアミド、2-クロロ-2',6'-ジエチル-N-(メトキシメチル)アセトアニリド、N-クロロアセチル-N-メトキシメチル-2,6-ジエチルアニリン、2-クロロ-N-(2,6-ジエチルフェニル)-N-(メトキシメチル)アセトアミド、N-(2,6-ジエチルフェニル)-N-(メトキシメチル)クロロアセトアミド


Lasso


ラッソ回帰

(lasso から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/09/26 22:35 UTC 版)

ラッソ回帰(ラッソかいき、least absolute shrinkage and selection operatorLassoLASSO)は、変数選択正則化の両方を実行し、生成する統計モデルの予測精度と解釈可能性を向上させる回帰分析手法。1986年に地球物理学の文献で最初に導入され[1]、その後1996年にロバート・ティブシラニ英語版[2] が独自に再発見して一般化した。

ラッソ回帰はもともと最小二乗法で定義されていた。最小二乗法の単純なケースでは、予測器の振る舞いについて多くの事実が分かる。すなわち、リッジ回帰ベストサブセット選択英語版との関係、ラッソ係数予測といわゆるソフトしきい値処理(soft thresholding)との関係である。

一般化線形モデル一般化推定方程式比例ハザードモデルM推定器英語版など、さまざまな統計モデルに簡単に拡張できる[2][3]

動機

ラッソ回帰は、与えられた共変量の一部のみ最終モデルで使用することにより、回帰モデルの予測精度と解釈可能性を向上させるために導入された[2][4]

ラッソ回帰以前は、段階的選択が変数選択に広く用いられていた。これは、少数の共変量のみが結果と強い関係がある場合などには予測精度を向上させるが、それ以外の場合は、予測誤差を悪化させる可能性がある。 また、大きな回帰係数を縮小して過剰適合を減らすリッジ回帰も予測精度を向上させるために用いられていたが、リッジ回帰では共変量選択を実行しない。

ラッソ回帰は、回帰係数の絶対値の合計を固定値よりも小さくすることでこれらの目標を両方とも達成できる。これにより、特定の係数が強制的にゼロに設定され、これらの係数を含まないより単純なモデルが効果的に選択される。この考え方は、リッジ回帰に似ているが、リッジ回帰の場合はこれは係数のサイズを縮小するだけであり、ゼロに設定することはない。

基本形

ラッソ回帰はもともと最小二乗法の場面で導入された。このケースを最初に検討することは有益である。

それぞれが

2次元のパラメータ空間(w1, w2)における、ラッソ回帰(L1-norm)およびリッジ回帰(L2-norm)の制約領域。

上で説明したように、ラッソ回帰は係数をゼロに設定できるが、表面的には類似しているように見えるリッジ回帰はできない。これは、2つのケースでの制約境界の形状の違いによるものである。ラッソ回帰とリッジ回帰の両方は、同じ目的関数を最小化すると解釈できる。

ラプラス分布は、平均で鋭くピークに達し、正規分布に比べて確率密度が集中している。

係数の事前分布として正規分布を仮定した場合の MAP推定値がリッジ回帰に相当するのと同様に、係数の事前分布としてラプラス分布を仮定した場合の MAP推定値がラッソ回帰に相当する。

ラプラス分布はゼロで鋭くピークに達し(その1次導関数は不連続)、確率分布は正規分布よりもゼロに近く集中する。 このことからも、なぜラッソ回帰では一部の係数をゼロに設定する傾向があるのに、リッジ回帰はそうではないのか、ということを説明できる[2]

すなわち、

である。

ここで、 の事前分布として平均 、分散 正規分布を仮定すると、右辺第1項は

さらに、パラメータ の事前分布として平均 、分散 ラプラス分布を仮定すると、右辺第2項は

以上から、 を用いて次のように表される。

括弧内は、ラグランジュの未定乗数法に基づく記載と同等である。

一般化

エラスティックネット

2005年、Zou と Hastie は、ラッソ回帰に存在する欠点に対処するためにエラスティックネットを導入した[5]。 ラッソ回帰は、標本数が共変量の数よりも少ないとき()、標本数( 個)までしか共変量を選択できない。 また、ラッソ回帰では高度に相関する共変量の組み合わせから1つしか共変量を選択しないことが多いため、共変量が強く相関しているならば、パフォーマンスがリッジ回帰に劣る場合がある。

エラスティックネットは によるペナルティ項を追加することによってラッソ回帰を拡張し、下記の式を得る。

これは次の式を解くことと同じである。

この問題は単純なラッソ回帰の形式で記述できる。

ただし、

、   、  

そして、 、共変量が互いに直交する場合、

エラスティックネットのペナルティは、ラッソ回帰およびリッジ回帰のペナルティの組み合わせに相当する。

正規化パラメータ は、交差検証法を用いたグリッド・サーチにより選択されることが多い。

Adaptive Lasso

2006年、オラクル性 oracle properties を持つように、罰則項に重みを乗じる手法が提唱された[6]

MI-LASSO

2013年、多重代入されたデータセットに対して、ラッソ回帰により変数選択する手法が提唱された[7]

正則化パラメータの選択

収縮の強度と変数の選択を制御する正則化パラメータ を適切に選択することで、予測の精度と解釈可能性を向上することができる。正則化が強くなりすぎると、重要な変数がモデルから削除される、係数が過度に縮小される等の可能性がある。 正則化パラメータ の選択には交差検証法がよく用いられる。

赤池情報量規準(AIC)やベイズ情報量規準(BIC)などの情報量規準英語版は、交差検証法よりも計算が高速であり、小さいサンプルでもパフォーマンスが変動しにくいため、交差検証よりも好ましい場合がある[8]。 情報量規準は、モデルのサンプル内精度を最大化することによって推定器の正則化パラメータを選択すると同時に、その有効なパラメーターの数/自由度にペナルティを課す。

関連項目

脚注

出典

  1. ^ Santosa, Fadil; Symes, William W. (1986). “Linear inversion of band-limited reflection seismograms.”. SIAM Journal on Scientific and Statistical Computing (SIAM) 7 (4): 1307–1330. doi:10.1137/0907087. 
  2. ^ a b c d e f g Tibshirani, Robert (1996). “Regression Shrinkage and Selection via the lasso”. Journal of the Royal Statistical Society (Wiley) 58 (1): 267–88. JSTOR 2346178. 
  3. ^ a b Tibshirani, Robert (1997). “The lasso Method for Variable Selection in the Cox Model”. Statistics in Medicine 16 (4): 385–395. doi:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3. 
  4. ^ Santosa, Fadil; Symes, William W. (1986). “Linear inversion of band-limited reflection seismograms.”. SIAM Journal on Scientific and Statistical Computing (SIAM) 7 (4): 1307–1330. doi:10.1137/0907087. 
  5. ^ Zou, Hui; Hastie, Trevor (2005). “Regularization and Variable Selection via the Elastic Net”. Journal of the Royal Statistical Society (Wiley) 67 (2): 301–20. doi:10.1111/j.1467-9868.2005.00503.x. JSTOR 3647580. 
  6. ^ Hui Zou (2006). “The Adaptive Lasso and Its Oracle Properties”. Journal of the American Statistical Association 101 (476): 1418-29. doi:10.1198/016214506000000735. https://www.tandfonline.com/doi/abs/10.1198/016214506000000735 2023年2月10日閲覧。. 
  7. ^ Qixuan Chen (2013 Sep 20). “Variable selection for multiply-imputed data with application to dioxin exposure study”. Statistics in medicine. 32 (21): 3646-59. doi:10.1002/sim.5783. 
  8. ^ Hoornweg, Victor (2018). “Chapter 9”. Science: Under Submission. Hoornweg Press. ISBN 978-90-829188-0-9. http://www.victorhoornweg.com 


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「lasso」の関連用語

lassoのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



lassoのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
独立行政法人科学技術振興機構独立行政法人科学技術振興機構
All Rights Reserved, Copyright © Japan Science and Technology Agency
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのラッソ回帰 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS