一般化モーメント法 (いっぱんかモーメントほう、英 : generalized method of moments, GMM )とは、計量経済学 において統計モデルのパラメーターを推定するための一般的な方法である。 
 一般化モーメント法においては、モデルについてのいくつかのモーメント条件が特定されている必要がある。これらのモーメント条件はモデルのパラメーターとデータの関数である。例えば、真のパラメーターの下で期待値が0となるようなものがある。この時、一般化モーメント法はモーメント条件の標本平均のあるノルム を最小化する。 
 一般化モーメント法による推定量は一致性、漸近正規性を持つことが知られ、さらにモーメント条件以外の情報を使わないすべての推定量のクラスにおいて統計的に効率的であることも知られている。 
 一般化モーメント法はラース・ハンセン により1982年 に、カール・ピアソン が1894年 に導入したモーメント法の一つの一般化として提案された。ハンセンは一般化モーメント法とそれのファイナンスへの応用により2013年 のノーベル経済学賞 を受賞した。 
 
  
 
 概要 利用可能なデータは T  個の観測値 {Yt   } t  = 1,...,T    からなると仮定する。ここでそれぞれの観測値 Yt   は n  次元の多次元確率変数 であるとする。ここでこのデータはある統計モデルから生成されるとし、その統計モデルは未知パラメーター θ  ∈ Θθ 0  もしくは少なくとも適度に近い推定量を見つけることである。 
 一般化モーメント法の一般的な仮定はデータ Yt   が弱定常(英語版 )  かつエルゴード(英語版 )  な確率過程 であることである(独立かつ同一分布 に従う確率変数 Yt   はこの条件の特殊ケースである)。 
 一般化モーメント法を適用する為に、モーメント条件を特定する必要がある。つまり以下のようなベクトル値関数 g (Y ,θ ) が既知でなくてはならない。 
 
 
  
   
       
        
         
         
          m
           
         
          (
           
          
          
           θ
            
           
           
            0
             
            
           
         
          )
           
         
          ≡
           
         
          E
           
         
          
           
         
          [
           
          
          
           g
            
          
           (
            
           
           
            Y
             
            
            
             t
              
             
            
          
           ,
            
           
           
            θ
             
            
            
             0
              
             
            
          
           )
            
           
           
            ]
             
           
            =
             
           
            0
             
           
            ,
             
           
          
          
         
       
        {\displaystyle m(\theta _{0})\equiv \operatorname {E} [\,g(Y_{t},\theta _{0})\,]=0,}
         
        
        
   
 ここで E は期待値 、Yt   は一般的な観測値を表す。加えて関数 m (θ ) は θ  ≠ θ 0 θ  は識別不可能である。 
 一般化モーメント法の基本的なアイデアは理論的な期待値 E[⋅] を実証的なもの、つまり標本平均 に置き換えることである。 
 
 
  
   
       
        
         
          
           
            
            
             m
              
            
             ^
              
             
            
           
         
          (
           
         
          θ
           
         
          )
           
         
          ≡
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
         
          θ
           
         
          )
           
          
         
       
        {\displaystyle {\hat {m}}(\theta )\equiv {\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta )}
         
        
        
   
 そして、この時、この表現のあるノルムを θ  について最小化する。ノルムを最小化する θ  が θ 0  の推定量である。 
 大数の法則 により、十分大きな T  について 
      
       
        
         
          
           
            
            
             m
              
            
             ^
              
             
            
           
         
          (
           
         
          θ
           
         
          )
           
          
          
           ≈
            
           
           
            E
             
           
            
             
           
            [
             
           
            g
             
           
            (
             
            
            
             Y
              
             
             
              t
               
              
             
           
            ,
             
           
            θ
             
           
            )
             
           
            ]
             
            
            
             =
              
             
             
              m
               
             
              (
               
             
              θ
               
             
              )
               
             
            
           
          
          
         
        
      
       {\displaystyle \scriptstyle {\hat {m}}(\theta )\,\approx \;\operatorname {E} [g(Y_{t},\theta )]\,=\,m(\theta )}
        
       
      
      
       
        
         
          
           
            
            
             m
              
            
             ^
              
             
            
           
         
          (
           
          
          
           θ
            
           
           
            0
             
            
           
         
          )
           
          
          
           ≈
            
           
           
            m
             
           
            (
             
            
            
             θ
              
             
             
              0
               
              
             
           
            )
             
            
            
             =
              
             
             
              0
               
             
            
           
          
          
         
        
      
       {\displaystyle \scriptstyle {\hat {m}}(\theta _{0})\;\approx \;m(\theta _{0})\;=\;0}
        
       
      
      
       
        
         
          
           
            
            
             m
              
            
             ^
              
             
            
           
         
          (
           
          
           
            
             
              
              
               θ
                
              
               ^
                
               
              
             
            
             
             
              )
               
             
            
           
          
          
         
        
      
       {\displaystyle \scriptstyle {\hat {m}}(\;\!{\hat {\theta }}\;\!)}
        
       
      
      
       
        
         
          
           
            
            
             θ
              
            
             ^
              
             
            
           
          
         
        
      
       {\displaystyle \scriptstyle {\hat {\theta }}}
        
       
      
      
       
        
         
          
           
            
            
             m
              
            
             ^
              
             
            
           
         
          (
           
         
          θ
           
         
          )
           
          
         
        
      
       {\displaystyle \scriptstyle {\hat {m}}(\theta )}
        
       
      ノルム を最小化することと同値である(m  のノルムを ||m || と表し、m  とゼロの間の距離を測るものとする)。結果として得られた推定量の持つ性質はノルム関数の選択にもよるので、ゆえに一般化モーメント法の理論はノルム全体の族を考慮する。以下を定義する。 
 
 
  
   
       
        
         
         
          ‖
           
          
           
            
            
             m
              
            
             ^
              
             
            
           
         
          (
           
         
          θ
           
         
          )
           
          
          
           ‖
            
           
           
            W
             
            
           
           
            2
             
            
           
         
          =
           
          
           
            
            
             m
              
            
             ^
              
             
            
           
         
          (
           
         
          θ
           
          
          
           )
            
          
           ′
            
           
          
          
           W
            
           
            
             
             
              m
               
             
              ^
               
              
             
            
          
           (
            
          
           θ
            
          
           )
            
          
           ,
            
          
          
         
       
        {\displaystyle \|{\hat {m}}(\theta )\|_{W}^{2}={\hat {m}}(\theta )'\,W{\hat {m}}(\theta ),}
         
        
        
   
 ここで W  は正値定符号 である加重行列で m′  は転置を表す。実践上、加重行列 W  は利用可能なデータセットに基づいて計算され、そのようにして計算された加重行列を 
      
       
        
         
          
           
            
             
             
              W
               
             
              ^
               
              
             
            
           
           
            T
             
            
           
          
         
        
      
       {\displaystyle \scriptstyle {\hat {W}}_{T}}
        
       
      
 
 
  
   
       
        
         
          
           
            
            
             θ
              
            
             ^
              
             
            
           
         
          =
           
         
          arg
           
         
          
           
          
          
           min
            
           
           
            θ
             
           
            ∈
             
           
            Θ
             
            
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
         
          θ
           
         
          )
           
          
           
            
            
             )
              
             
            
          
           ′
            
           
          
           
            
             
             
              W
               
             
              ^
               
              
             
            
           
           
            T
             
            
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
         
          θ
           
         
          )
           
          
           
           
            )
             
            
           
          
         
       
        {\displaystyle {\hat {\theta }}=\operatorname {arg} \min _{\theta \in \Theta }{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}'{\hat {W}}_{T}{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}}
         
        
        
   
 適切な条件の下で、一般化モーメント法による推定量は一致性と漸近正規性を持つ。そして加重行列 
      
       
        
         
          
           
            
             
             
              W
               
             
              ^
               
              
             
            
           
           
            T
             
            
           
          
         
        
      
       {\displaystyle \scriptstyle {\hat {W}}_{T}}
        
       
      
 
 性質 一致性 一致性とは、推定量の持つ統計的な性質であり、十分に多くの観測値がある場合、推定量は真の値に任意に近づいていくということである。 
 
 
  
   
       
        
         
          
           
            
            
             θ
              
            
             ^
              
             
            
           
          
           
           
            →
             
            
            
             p
              
             
            
           
          
          
           θ
            
           
           
            0
             
            
           
         
           
           
          
          
           as
            
           
         
           
           
         
          T
           
         
          →
           
         
          ∞
           
          
         
       
        {\displaystyle {\hat {\theta }}{\xrightarrow {p}}\theta _{0}\ {\text{as}}\ T\to \infty }
         
        
        
   
 (確率収束 を参照)。一般化モーメント法による推定量が一致性を持つ必要十分条件は以下の通りである。 
 
 
  
       
        
         
          
           
            
             
             
              W
               
             
              ^
               
              
             
            
           
           
            T
             
            
           
          
           
           
            →
             
            
            
             p
              
             
            
           
         
          W
           
          
         
       
        {\displaystyle {\hat {W}}_{T}{\xrightarrow {p}}W}
         
        
       W  は正値定符号 行列である。
       
        
         
          
          
           θ
            
          
           =
            
           
           
            θ
             
            
            
             0
              
             
            
          
          
         
       
        {\displaystyle \,\theta =\theta _{0}}
         
        
       
       
        
         
          
          
           E
            
          
           
            
          
           [
            
           
           
            g
             
           
            (
             
            
            
             Y
              
             
             
              t
               
              
             
           
            ,
             
           
            θ
             
           
            )
             
            
            
             ]
              
            
             =
              
            
             0
              
            
           
          
          
         
       
        {\displaystyle \,\operatorname {E} [\,g(Y_{t},\theta )\,]=0}
         
        
       パラメーターが値を取りうる集合 
       
        
         
         
          Θ
           
         
          ⊂
           
          
           
           
            R
             
            
           
           
            k
             
            
           
          
         
       
        {\displaystyle \Theta \subset \mathbb {R} ^{k}}
         
        
       コンパクト 集合である。  
  
       
        
         
          
          
           g
            
          
           (
            
          
           Y
            
          
           ,
            
          
           θ
            
          
           )
            
          
          
         
       
        {\displaystyle \,g(Y,\theta )}
         
        
       θ  について連続 である。
       
        
         
         
          E
           
         
          
           
         
          [
           
          
           
            
            
             sup
              
             
             
              θ
               
             
              ∈
               
             
              Θ
               
              
             
           
            ‖
             
           
            g
             
           
            (
             
           
            Y
             
           
            ,
             
           
            θ
             
           
            )
             
           
            ‖
             
            
            
             ]
              
            
             <
              
            
             ∞
              
            
            
          
          
         
       
        {\displaystyle \operatorname {E} [\,\textstyle \sup _{\theta \in \Theta }\lVert g(Y,\theta )\rVert \,]<\infty }
         
        
         
 第二の条件(大域的識別 条件と呼ばれる)は、非線形モデルにおいて確かめるのが難しい。 
 実証計量経済学者は実際に大域的識別条件を確かめずに、それが成立していると単に仮定することがしばしばある[1] 
 が、あまり推奨されない。識別条件が成立しない非線形モデルの例については、Dominguez and Lobato (2004)を参照のこと。 
 
 漸近正規性 漸近正規性は有用な性質であり、漸近正規性により推定量の信頼区間 を計算することや仮説検定 を行うことができる。一般化モーメント法による推定量の漸近分布について述べる前に、以下の2つの補助的な行列を定義する。 
 
 
  
   
       
        
         
         
          G
           
         
          =
           
         
          E
           
         
          
           
         
          [
           
          
           
           
            ∇
             
            
             
             
              θ
               
             
             
            
           
           
            g
             
           
            (
             
            
            
             Y
              
             
             
              t
               
              
             
           
            ,
             
            
            
             θ
              
             
             
              0
               
              
             
           
            )
             
            
            
             ]
              
            
             ,
              
             
             
              Ω
               
             
              =
               
             
              E
               
             
              
               
             
              [
               
              
              
               g
                
              
               (
                
               
               
                Y
                 
                
                
                 t
                  
                 
                
              
               ,
                
               
               
                θ
                 
                
                
                 0
                  
                 
                
              
               )
                
              
               g
                
              
               (
                
               
               
                Y
                 
                
                
                 t
                  
                 
                
              
               ,
                
               
               
                θ
                 
                
                
                 0
                  
                 
                
               
               
                )
                 
               
                ′
                 
                
               
               
                ]
                 
               
              
             
            
           
          
          
         
       
        {\displaystyle G=\operatorname {E} [\,\nabla _{\!\theta }\,g(Y_{t},\theta _{0})\,],\qquad \Omega =\operatorname {E} [\,g(Y_{t},\theta _{0})g(Y_{t},\theta _{0})'\,]}
         
        
        
   
 以下の1から6までの条件の下で、一般化モーメント法による推定量は漸近正規性を持つ。 
 
 
  
   
       
        
         
          
           
           
            T
             
            
           
          
           
           
            (
             
            
           
          
           
            
            
             θ
              
            
             ^
              
             
            
           
         
          −
           
          
          
           θ
            
           
           
            0
             
            
           
          
           
           
            )
             
            
           
         
           
           
          
           
           
            →
             
            
            
             d
              
             
            
           
         
           
           
          
           
           
            N
             
            
           
          
           
           
            [
             
            
           
         
          0
           
         
          ,
           
         
          (
           
          
          
           G
            
          
           ′
            
           
         
          W
           
         
          G
           
          
          
           )
            
           
           
            −
             
           
            1
             
            
           
          
          
           G
            
          
           ′
            
           
         
          W
           
         
          Ω
           
          
          
           W
            
          
           ′
            
           
         
          G
           
         
          (
           
          
          
           G
            
          
           ′
            
           
          
          
           W
            
          
           ′
            
           
         
          G
           
          
          
           )
            
           
           
            −
             
           
            1
             
            
           
          
           
           
            ]
             
            
           
          
         
       
        {\displaystyle {\sqrt {T}}{\big (}{\hat {\theta }}-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big [}0,(G'WG)^{-1}G'W\Omega W'G(G'W'G)^{-1}{\big ]}}
         
        
        
   
 (分布収束 を参照)。条件は以下の通りである。 
 
 
  
       
        
         
          
           
            
            
             θ
              
            
             ^
              
             
            
           
          
         
       
        {\displaystyle {\hat {\theta }}}
         
        
       
       
        
         
          
          
           g
            
          
           (
            
          
           Y
            
          
           ,
            
          
           θ
            
          
           )
            
          
          
         
       
        {\displaystyle \,g(Y,\theta )}
         
        
       
       
        
         
          
          
           θ
            
           
           
            0
             
            
           
          
         
       
        {\displaystyle \theta _{0}}
         
        
       N  において連続微分可能である。
       
        
         
         
          E
           
         
          
           
         
          [
           
          
          
           ‖
            
          
           g
            
          
           (
            
           
           
            Y
             
            
            
             t
              
             
            
          
           ,
            
          
           θ
            
          
           )
            
           
           
            ‖
             
            
            
             2
              
             
            
           
           
            ]
             
           
            <
             
           
            ∞
             
           
          
          
         
       
        {\displaystyle \operatorname {E} [\,\lVert g(Y_{t},\theta )\rVert ^{2}\,]<\infty }
         
        
       
       
        
         
         
          E
           
         
          
           
         
          [
           
          
           
            
            
             sup
              
             
             
              θ
               
             
              ∈
               
             
              N
               
              
             
           
            ‖
             
            
            
             ∇
              
             
             
              θ
               
              
             
           
            g
             
           
            (
             
            
            
             Y
              
             
             
              t
               
              
             
           
            ,
             
           
            θ
             
           
            )
             
           
            ‖
             
            
            
             ]
              
            
             <
              
            
             ∞
              
            
            
          
          
         
       
        {\displaystyle \operatorname {E} [\,\textstyle \sup _{\theta \in N}\lVert \nabla _{\theta }g(Y_{t},\theta )\rVert \,]<\infty }
         
        
       行列 
       
        
         
          
          
           G
            
          
           ′
            
           
         
          W
           
         
          G
           
          
         
       
        {\displaystyle G'WG}
         
        
       正則行列 である。 
   
 効率性 ここまで行列 W  の選択については、それが半正値定符号で無くてはならないということを除き何も述べてこなかった。実際、どのような半正値定符号行列であっても一般化モーメント法による推定量は一致性と漸近正規性を持つ。唯一の違いはその推定量の漸近分散にある。加重行列を以下のように取る。 
 
 
  
   
       
        
         
         
          W
           
         
          ∝
           
         
           
           
          
          
           Ω
            
           
           
            −
             
           
            1
             
            
           
          
         
       
        {\displaystyle W\propto \ \Omega ^{-1}}
         
        
        
   
 すると、一般化モーメント法による推定量はすべての漸近正規的な推定量の中で最も効率的となる。この場合の効率性は、推定量が可能な限り最小の分散行列(ある行列 A  が行列 B  より小さいとは B-A  が半正値低符号であるということである。)を持つという意味である。 
 この場合、一般化モーメント法による推定量の漸近分散についての公式は以下のように単純化される。 
 
 
  
   
       
        
         
          
           
           
            T
             
            
           
          
           
           
            (
             
            
           
          
           
            
            
             θ
              
            
             ^
              
             
            
           
         
          −
           
          
          
           θ
            
           
           
            0
             
            
           
          
           
           
            )
             
            
           
         
           
           
          
           
           
            →
             
            
            
             d
              
             
            
           
         
           
           
          
           
           
            N
             
            
           
          
           
           
            [
             
            
           
         
          0
           
         
          ,
           
         
          (
           
          
          
           G
            
          
           ′
            
           
          
           
           
            Ω
             
            
            
             −
              
            
             1
              
             
            
          
           G
            
           
           
            )
             
            
            
             −
              
            
             1
              
             
            
           
            
            
             ]
              
             
            
          
          
         
       
        {\displaystyle {\sqrt {T}}{\big (}{\hat {\theta }}-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big [}0,(G'\,\Omega ^{-1}G)^{-1}{\big ]}}
         
        
        
   
 このような加重行列を選ぶことが最適になるという証明は、しばしば他の推定量の効率性を証明する時の証明を少しばかり模倣したものを取り入れる。大雑把に言えば、加重行列を分散についての"サンドイッチ公式"が単純な表現になるように選べば、その加重行列は最適となる。 
 
  
 実装 今まで述べてきた方法を実装するにあたっての一つの難しい点は W  = Ω−1 θ 0  の値が既知でなければならず、θ 0  はまさに未知であり、そもそも推定しようとしている量である。 
 この問題を解決するための方法がいくつか存在する。以下であげるものうち、2段階GMMが最も一般的である。 
 
  
 
  
   
    ステップ1 
         
          
           
            
             
              
               
                
                
                 W
                  
                
                 ^
                  
                 
                
               
              
              
               T
                
               
              
             
             
              =
               
             
              I
               
             
             
            
           
         
          {\displaystyle \scriptstyle {\hat {W}}_{T}\;=I}
           
          
         単位行列 )とし、事前の一般化モーメント法による推定量 
         
          
           
            
             
              
               
                
                
                 θ
                  
                
                 ^
                  
                 
                
               
              
              
               (
                
              
               1
                
              
               )
                
               
              
             
            
           
         
          {\displaystyle \scriptstyle {\hat {\theta }}_{(1)}}
           
          
         θ 0  についての一致推定量ではあるが、効率的ではない。  
    ステップ2 
     
   
    
     
         
          
           
            
             
              
               
               
                W
                 
               
                ^
                 
                
               
              
             
             
              T
               
              
             
           
            =
             
            
             
             
              (
               
              
             
            
             
             
              1
               
             
              T
               
              
             
            
            
             ∑
              
             
             
              t
               
             
              =
               
             
              1
               
              
             
             
              T
               
              
             
           
            g
             
           
            (
             
            
            
             Y
              
             
             
              t
               
              
             
           
            ,
             
            
             
              
               
               
                θ
                 
               
                ^
                 
                
               
              
             
             
              (
               
             
              1
               
             
              )
               
              
             
           
            )
             
           
            g
             
           
            (
             
            
            
             Y
              
             
             
              t
               
              
             
           
            ,
             
            
             
              
               
               
                θ
                 
               
                ^
                 
                
               
              
             
             
              (
               
             
              1
               
             
              )
               
              
             
            
            
             )
              
            
             ′
              
             
            
             
              
              
               )
                
               
              
             
             
              −
               
             
              1
               
              
             
           
            ,
             
            
           
         
          {\displaystyle {\hat {W}}_{T}={\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}_{(1)})g(Y_{t},{\hat {\theta }}_{(1)})'{\bigg )}^{-1},}
           
          
           
    
     とする。ただし、ステップ1における推定量 
         
          
           
            
             
              
               
                
                
                 θ
                  
                
                 ^
                  
                 
                
               
              
              
               (
                
              
               1
                
              
               )
                
               
              
             
            
           
         
          {\displaystyle \scriptstyle {\hat {\theta }}_{(1)}}
           
          
         −1  に確率収束し、ゆえにこの加重行列を用いて推定量 
         
          
           
            
             
              
               
               
                θ
                 
               
                ^
                 
                
               
              
             
            
           
         
          {\displaystyle \scriptstyle {\hat {\theta }}}
           
          
          
    
   
   
  
 
  
   行列 
       
        
         
          
           
            
             
             
              W
               
             
              ^
               
              
             
            
           
           
            T
             
            
           
          
         
       
        {\displaystyle {\hat {W}}_{T}}
         
        
       
       
        
         
          
           
            
             
              
              
               θ
                
              
               ^
                
               
              
             
            
            
             (
              
            
             i
              
            
             )
              
             
            
           
          
         
       
        {\displaystyle \scriptstyle {\hat {\theta }}_{(i)}}
         
        
       [2]   
  
   
       
        
         
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
          
           
            
            
             ∂
              
            
             g
              
             
            
            
             ∂
              
             
             
              θ
               
             
              ′
               
              
             
            
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
          
           
            
             
             
              θ
               
             
              ^
               
              
             
            
           
           
            (
             
           
            i
             
           
            )
             
            
           
         
          )
           
          
           
            
            
             )
              
             
            
          
           ′
            
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
          
           
            
             
             
              θ
               
             
              ^
               
              
             
            
           
           
            (
             
           
            i
             
           
            )
             
            
           
         
          )
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
          
           
            
             
             
              θ
               
             
              ^
               
              
             
            
           
           
            (
             
           
            i
             
           
            )
             
            
           
          
          
           )
            
          
           ′
            
           
          
           
            
            
             )
              
             
            
           
            
            
             −
              
            
             1
              
            
            
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
          
           
            
             
             
              θ
               
             
              ^
               
              
             
            
           
           
            (
             
           
            i
             
           
            )
             
            
           
         
          )
           
          
           
           
            )
             
            
           
         
          =
           
         
          0
           
          
         
       
        {\displaystyle {\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}{\frac {\partial g}{\partial \theta '}}(Y_{t},{\hat {\theta }}_{(i)}){\bigg )}'{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}_{(i)})g(Y_{t},{\hat {\theta }}_{(i)})'{\bigg )}^{\!-1}{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}_{(i)}){\bigg )}=0}
         
        
         
  
   このような繰り返しを行っても漸近的な改善は達成できないが、あるモンテカルロ実験では有限標本における推定量の振る舞いが若干よくなる[要出典  。
   
   
 
  連続更新GMM (英 : Continuously updating GMM  CUGMM もしくは CUE)  
 
  
   
       
        
         
          
           
            
             
             
              θ
               
             
              ^
               
              
             
            
           
          
         
       
        {\displaystyle \scriptstyle {\hat {\theta }}}
         
        
       W  と同時に推定する。つまり、
    
  
   
       
        
         
          
           
            
            
             θ
              
            
             ^
              
             
            
           
         
          =
           
         
          arg
           
         
          
           
          
          
           min
            
           
           
            θ
             
           
            ∈
             
           
            Θ
             
            
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
         
          θ
           
         
          )
           
          
           
            
            
             )
              
             
            
          
           ′
            
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
         
          θ
           
         
          )
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
         
          θ
           
          
          
           )
            
          
           ′
            
           
          
           
            
            
             )
              
             
            
           
            
            
             −
              
            
             1
              
            
            
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
         
          θ
           
         
          )
           
          
           
           
            )
             
            
           
          
         
       
        {\displaystyle {\hat {\theta }}=\operatorname {arg} \min _{\theta \in \Theta }{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}'{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta )g(Y_{t},\theta )'{\bigg )}^{\!-1}{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}}
         
        
         
  
   として推定する。モンテカルロ実験において、この方法は伝統的な2段階GMMよりよいパフォーマンスを見せている。連続更新GMMは(裾が厚くなるが、)中位点のバイアスが小さくなり、そして多くの場合における過剰識別制約のためのJ検定がよりもっともらしい結果となる[3]  
   
 最小化の手続きの実装におけるもう一つの重要な問題は、(高次元であることもありうる)パラメーター空間 Θ  を探索し、目的関数を最小化する θ  の値を見つけるということになっているということである。このような手続きについて一般的に推奨される方法は存在せず、それは個々の場合による問題となる(数理最適化 )。 
 
 J検定 モーメント条件の数がパラメーターベクトルの次元より大きい時、そのモデルは過剰識別されている (英 : over-identified )と言う。過剰識別ならば、そのモデルのモーメント条件がデータと適合するかどうかを調べることが出来る。 
 概念的に、モデルがデータによくフィットしているかは、
      
       
        
         
          
           
           
            m
             
           
            ^
             
            
           
          
        
         (
          
         
          
           
           
            θ
             
           
            ^
             
            
           
          
        
         )
          
         
        
      
       {\displaystyle {\hat {m}}({\hat {\theta }})}
        
       
      
      
       
        
         
          
           
           
            m
             
           
            ^
             
            
           
          
        
         (
          
        
         θ
          
        
         )
          
        
         =
          
        
         0
          
         
        
      
       {\displaystyle {\hat {m}}(\theta )=0}
        
       
      
      
       
        
        
         θ
          
         
        
      
       {\displaystyle \theta }
        
       
      
      
       
        
        
         m
          
        
         (
          
         
         
          θ
           
          
          
           0
            
           
          
        
         )
          
        
         =
          
        
         0
          
         
        
      
       {\displaystyle m(\theta _{0})=0}
        
       
      
      
       
        
         
         
          θ
           
          
          
           0
            
           
          
         
        
      
       {\displaystyle \theta _{0}}
        
       
      過剰識別制約についての検定 とも呼ばれる。 
 以下の統計的仮説を考えよう。 
 
 
  
       
        
         
          
          
           H
            
           
           
            0
             
            
           
         
          :
           
         
           
           
         
          m
           
         
          (
           
          
          
           θ
            
           
           
            0
             
            
           
         
          )
           
         
          =
           
         
          0
           
          
         
       
        {\displaystyle H_{0}:\ m(\theta _{0})=0}
         
        
       帰無仮説 )
       
        
         
          
          
           H
            
           
           
            1
             
            
           
         
          :
           
         
           
           
         
          m
           
         
          (
           
         
          θ
           
         
          )
           
         
          ≠
           
         
          0
           
         
          ,
           
         
           
           
         
          ∀
           
         
          θ
           
         
          ∈
           
         
          Θ
           
          
         
       
        {\displaystyle H_{1}:\ m(\theta )\neq 0,\ \forall \theta \in \Theta }
         
        
       対立仮説 。データは制約を満たすほど近づかない。)  
 仮説 
      
       
        
         
         
          H
           
          
          
           0
            
           
          
         
        
      
       {\displaystyle H_{0}}
        
       
      k-l  のカイ2乗分布 に従う。 
 
 
  
   
       
        
         
         
          J
           
         
          ≡
           
         
          T
           
         
          ⋅
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
          
           
            
            
             θ
              
            
             ^
              
             
            
           
         
          )
           
          
           
            
            
             )
              
             
            
          
           ′
            
           
          
           
            
             
             
              W
               
             
              ^
               
              
             
            
           
           
            T
             
            
           
          
           
           
            (
             
            
           
          
           
           
            1
             
           
            T
             
            
           
          
          
           ∑
            
           
           
            t
             
           
            =
             
           
            1
             
            
           
           
            T
             
            
           
         
          g
           
         
          (
           
          
          
           Y
            
           
           
            t
             
            
           
         
          ,
           
          
           
            
            
             θ
              
            
             ^
              
             
            
           
         
          )
           
          
           
           
            )
             
            
           
         
           
           
          
           
           
            →
             
            
            
             d
              
             
            
           
         
           
           
          
          
           χ
            
           
           
            k
             
           
            −
             
           
            ℓ
             
            
           
           
            2
             
            
           
          
         
       
        {\displaystyle J\equiv T\cdot {\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}){\bigg )}'{\hat {W}}_{T}{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}){\bigg )}\ {\xrightarrow {d}}\ \chi _{k-\ell }^{2}}
         
        
       
       
        
         
          
          
           H
            
           
           
            0
             
            
           
         
          ,
           
          
         
       
        {\displaystyle H_{0},}
         
        
        
   
 ここで 
      
       
        
         
          
           
           
            θ
             
           
            ^
             
            
           
          
         
        
      
       {\displaystyle {\hat {\theta }}}
        
       
      
      
       
        
         
         
          θ
           
          
          
           0
            
           
          
         
        
      
       {\displaystyle \theta _{0}}
        
       
      k  はモーメント条件の数(ベクトル g  の次元)、l  は推定パラメーターの数(ベクトル θ  の次元)である。行列 
      
       
        
         
          
           
            
            
             W
              
            
             ^
              
             
            
           
          
          
           T
            
           
          
         
        
      
       {\displaystyle {\hat {W}}_{T}}
        
       
      
      
       
        
         
         
          Ω
           
          
          
           −
            
          
           1
            
           
          
         
        
      
       {\displaystyle \Omega ^{-1}}
        
       
      
      
       
        
         
         
          Ω
           
          
          
           −
            
          
           1
            
           
          
         
        
      
       {\displaystyle \Omega ^{-1}}
        
       
      W  は 
      
       
        
         
         
          Ω
           
          
          
           −
            
          
           1
            
           
          
         
        
      
       {\displaystyle \Omega ^{-1}}
        
       
      W  は 
      
       
        
         
         
          Ω
           
          
          
           −
            
          
           1
            
           
          
         
        
      
       {\displaystyle \Omega ^{-1}}
        
       
      
 対立仮説 
      
       
        
         
         
          H
           
          
          
           1
            
           
          
         
        
      
       {\displaystyle H_{1}}
        
       
      
 
 
  
   
       
        
         
         
          J
           
         
           
           
          
           
           
            →
             
            
            
             p
              
             
            
           
         
           
           
         
          ∞
           
          
         
       
        {\displaystyle J\ {\xrightarrow {p}}\ \infty }
         
        
       
       
        
         
          
          
           H
            
           
           
            1
             
            
           
          
         
       
        {\displaystyle H_{1}}
         
        
        
   
 検定を行う為に、データから J  の値を計算しなくてはならない。J  は非負である。J  を(例えば)
      
       
        
         
         
          χ
           
          
          
           k
            
          
           −
            
          
           ℓ
            
           
          
          
           2
            
           
          
         
        
      
       {\displaystyle \chi _{k-\ell }^{2}}
        
       
      分位点 と比較する。 
 
 
  もし 
       
        
         
         
          J
           
         
          >
           
          
          
           q
            
           
           
            0.95
             
            
           
            
            
             χ
              
             
             
              k
               
             
              −
               
             
              ℓ
               
              
             
             
              2
               
              
             
            
           
          
         
       
        {\displaystyle J>q_{0.95}^{\chi _{k-\ell }^{2}}}
         
        
       
       
        
         
          
          
           H
            
           
           
            0
             
            
           
          
         
       
        {\displaystyle H_{0}}
         
        
       有意水準 5%で棄却される。  
  もし 
       
        
         
         
          J
           
         
          <
           
          
          
           q
            
           
           
            0.95
             
            
           
            
            
             χ
              
             
             
              k
               
             
              −
               
             
              ℓ
               
              
             
             
              2
               
              
             
            
           
          
         
       
        {\displaystyle J<q_{0.95}^{\chi _{k-\ell }^{2}}}
         
        
       
       
        
         
          
          
           H
            
           
           
            0
             
            
           
          
         
       
        {\displaystyle H_{0}}
         
        
       有意水準 5%で棄却できない。 
   
 用例 他の多くの推定法は一般化モーメント法の意味で解釈できる。 
 
 
  最小二乗法 (英 : Ordinary least squares, OLS )は一般化モーメント法と以下のモーメント条件で同値となる。  
 
  
   
       
        
         
         
          E
           
         
          
           
         
          [
           
          
           
           
            x
             
            
            
             t
              
             
            
          
           (
            
           
           
            y
             
            
            
             t
              
             
            
          
           −
            
           
           
            x
             
            
            
             t
              
             
           
            ′
             
            
          
           β
            
          
           )
            
           
           
            ]
             
           
            =
             
           
            0
             
           
          
          
         
       
        {\displaystyle \operatorname {E} [\,x_{t}(y_{t}-x_{t}'\beta )\,]=0}
         
        
        
   
 
  一般化最小二乗法(英語版 )  (英 : Generalized least squares, GLS )  
 
  
   
       
        
         
         
          E
           
         
          
           
         
          [
           
          
           
           
            x
             
            
            
             t
              
             
            
          
           (
            
           
           
            y
             
            
            
             t
              
             
            
          
           −
            
           
           
            x
             
            
            
             t
              
             
           
            ′
             
            
          
           β
            
          
           )
            
           
           
            /
             
            
           
           
            σ
             
            
            
             2
              
             
            
          
           (
            
           
           
            x
             
            
            
             t
              
             
            
          
           )
            
           
           
            ]
             
           
            =
             
           
            0
             
           
          
          
         
       
        {\displaystyle \operatorname {E} [\,x_{t}(y_{t}-x_{t}'\beta )/\sigma ^{2}(x_{t})\,]=0}
         
        
        
   
 
  操作変数法 (英 : Instrumental variables regression, IV )  
 
  
   
       
        
         
         
          E
           
         
          
           
         
          [
           
          
           
           
            z
             
            
            
             t
              
             
            
          
           (
            
           
           
            y
             
            
            
             t
              
             
            
          
           −
            
           
           
            x
             
            
            
             t
              
             
           
            ′
             
            
          
           β
            
          
           )
            
           
           
            ]
             
           
            =
             
           
            0
             
           
          
          
         
       
        {\displaystyle \operatorname {E} [\,z_{t}(y_{t}-x_{t}'\beta )\,]=0}
         
        
        
   
  
 
  
   
       
        
         
         
          E
           
         
          
           
         
          [
           
          
           
           
            ∇
             
            
             
             
              β
               
             
             
            
           
           
            g
             
           
            (
             
            
            
             x
              
             
             
              t
               
              
             
           
            ,
             
           
            β
             
           
            )
             
           
            ⋅
             
           
            (
             
            
            
             y
              
             
             
              t
               
              
             
           
            −
             
           
            g
             
           
            (
             
            
            
             x
              
             
             
              t
               
              
             
           
            ,
             
           
            β
             
           
            )
             
           
            )
             
            
            
             ]
              
            
             =
              
            
             0
              
            
           
          
          
         
       
        {\displaystyle \operatorname {E} [\,\nabla _{\!\beta }\,g(x_{t},\beta )\cdot (y_{t}-g(x_{t},\beta ))\,]=0}
         
        
        
   
 
  最尤法 (英 : Maximum likelihood estimation, MLE )  
 
  
   
       
        
         
         
          E
           
         
          
           
         
          [
           
          
           
           
            ∇
             
            
             
             
              θ
               
             
             
            
          
           ln
            
          
           
            
          
           f
            
          
           (
            
           
           
            x
             
            
            
             t
              
             
            
          
           ,
            
          
           θ
            
          
           )
            
           
           
            ]
             
           
            =
             
           
            0
             
           
          
          
         
       
        {\displaystyle \operatorname {E} [\,\nabla _{\!\theta }\ln f(x_{t},\theta )\,]=0}
         
        
        
   
 ただし、NLSやMLEは上のモーメント条件だけではパラメーターを識別できない場合がある。つまり、上のモーメント条件を満たすパラメーターが複数存在する可能性がある。従って、NLSやMLEの場合、GMMによる推定はできる限り避けることを推奨する。例えば、Dominguez and Lobato (2004)のシュレーションでは、非線形回帰のGMM推定が非常に不安定になることが示されている。 
 
 実装例 参考文献  
  
   Faciane Jr., Kirby Adam (2006), Statistics for Empirical and Quantitative Finance , Philadelphia: H.C. Baird, ISBN  0-9788208-9-4    Hall, Alastair R. (2005), Generalized Method of Moments (Advanced Texts in Econometrics) , Oxford University Press, 
     ISBN  0-19-877520-2    Hansen, Lars Peter  (1982), “Large Sample Properties of Generalized Method of Moments Estimators” , Econometrica  50  (4): 1029–1054, JSTOR  1912775 , https://jstor.org/stable/1912775    Hansen, Lars Peter  (2002), “Method of Moments”, in Smelser, N. J; Bates, P. B, International Encyclopedia of the Social and Behavior Sciences , Oxford: Pergamon  Hansen, Lars Peter ; Heaton, John; Yaron, Amir (1996), “Finite-sample properties of some alternative GMM estimators” , Journal of Business & Economic Statistics  14  (3): 262–280, doi :10.1080/07350015.1996.10524656 , JSTOR  1392442 , https://jstor.org/stable/1392442    Imbens, Guido W.; Spady, Richard H.; Johnson, Phillip (1998), “Information theoretic approaches to inference in moment condition models” , Econometrica  66  (2): 333–357, JSTOR  2998561 , https://jstor.org/stable/2998561     Newey, W; McFadden, D  (1994), “Large sample estimation and hypothesis testing”, Handbook of Econometrics , Elsevier Science   Special issues of Journal of Business and Economic Statistics: vol. 14, no. 3  and vol. 20, no. 4 . 
    
   
 関連項目