勾配ツリーブースティング
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/19 14:36 UTC 版)
「勾配ブースティング」の記事における「勾配ツリーブースティング」の解説
勾配ブースティングは通常、固定サイズの決定木(特にCART木)を基本学習者として使用する。フリードマンは、この特殊なケースに対して、各基本学習者の適合性を向上させる勾配ブースティング法の修正を提案している。 一般的な勾配ブースティングでは、m 番目のステップにおいて、決定木 h m ( x ) {\displaystyle h_{m}(x)} を疑似残差に適合させる。 J m {\displaystyle J_{m}} をその葉の数とする。ツリーは入力空間を J m {\displaystyle J_{m}} 個の互いに素な領域 R 1 m , … , R J m m {\displaystyle R_{1m},\ldots ,R_{J_{m}m}} に分けて各地域の定数値を予測する。入力 x に対する出力 h m ( x ) {\displaystyle h_{m}(x)} を指示関数を使って記述すると h m ( x ) = ∑ j = 1 J m b j m 1 R j m ( x ) {\displaystyle h_{m}(x)=\sum _{j=1}^{J_{m}}b_{jm}\mathbf {1} _{R_{jm}}(x)} ここで、 b j m {\displaystyle b_{jm}} は領域 R j m {\displaystyle R_{jm}} における予測値を表す。 次に、係数 b j m {\displaystyle b_{jm}} に γ m {\displaystyle \gamma _{m}} (損失関数を最小化するように線型探索で選択する)を乗じ、モデルは次のように更新される。 F m ( x ) = F m − 1 ( x ) + ∑ j = 1 J m γ j m 1 R j m ( x ) , γ j m = a r g m i n γ ∑ x i ∈ R j m L ( y i , F m − 1 ( x i ) + γ ) . {\displaystyle F_{m}(x)=F_{m-1}(x)+\sum _{j=1}^{J_{m}}\gamma _{jm}\mathbf {1} _{R_{jm}}(x),\quad \gamma _{jm}={\underset {\gamma }{\operatorname {arg\,min} }}\sum _{x_{i}\in R_{jm}}L(y_{i},F_{m-1}(x_{i})+\gamma ).} フリードマンは、木全体に対する γ m {\displaystyle \gamma _{m}} ではなく、領域毎に異なる別の最適値 γ j m {\displaystyle \gamma _{jm}} を選択するようにこのアルゴリズムを修正することを提案している。彼は修正されたアルゴリズムを「TreeBoost」と呼んでいる。係数 b j m {\displaystyle b_{jm}} を破棄して、モデルの更新規則は次のようになる。 F m ( x ) = F m − 1 ( x ) + ν ⋅ γ m h m ( x ) , 0 < ν ≤ 1 , {\displaystyle F_{m}(x)=F_{m-1}(x)+\nu \cdot \gamma _{m}h_{m}(x),\quad 0<\nu \leq 1,}
※この「勾配ツリーブースティング」の解説は、「勾配ブースティング」の解説の一部です。
「勾配ツリーブースティング」を含む「勾配ブースティング」の記事については、「勾配ブースティング」の概要を参照ください。
- 勾配ツリーブースティングのページへのリンク