自由度は、多くのコンテキストで非整数です。実際、いくつかの状況では、特定のモデルのデータに適合する自由度は、値と間でなければならないことを確認できます。kk + 1
通常、自由度は自由なパラメーターの数と考えられますが、パラメーターが完全に自由ではなく、カウントが難しい場合があります。これは、たとえば、スムージング/正則化するときに発生する可能性があります。
局所的に重み付けされた回帰/カーネル法の平滑化スプラインの場合は、このような状況の例です-自由パラメーターの総数は、予測変数を追加することで簡単に数えることができるものではないため、自由度のより一般的な考え方が必要です。
では一般化加法モデルこれにgam
一部基づいており、HastieおよびTibshirani(1990)[1]は(そして実際に、他の多くの参考文献に)私たちは書くことができますいくつかのモデルに、自由度は時々であると解釈される(またはについても説明します)。1つ目は、両方が機能するより一般的なアプローチ(たとえば、通常の状況ではがの列次元になる回帰)ですが、が対称でべき等の場合、これら3つすべてと一致します数式は同じです。y^= A ytr(A )tr(A AT)tr(2 A − A AT)tr(A )バツA
[十分な詳細を確認するのに便利なこのリファレンスはありません。同じ著者(およびフリードマン)が手に入れるのが簡単な代替手段は、Elements of Statistics Learning [2]です。たとえば、式5.16を参照してください。これは、平滑化スプラインの有効な自由度を(私の表記では)として定義しています。tr(A )
さらに一般的には、Ye(1998)[3]は一般化された自由度をとして定義しました。これは、対応する観測値に対する近似値の感度の合計です。同様に、これはその定義が機能すると一致します。Yeの定義を使用するには、を計算し、データを少しだけ摂動する必要があります(数値的に計算するため)。これにより、非常に広く適用できます。∑私∂y^私∂y私tr(A )y^∂y^私∂y私
で近似されたモデルの場合gam
、これらのさまざまなメジャーは一般に整数ではありません。
(この問題に関するこれらの参考文献の議論を読むことを強くお勧めしますが、状況によってはストーリーがかなり複雑になる可能性があります。たとえば、[4]を参照してください)
[1] Hastie、T. and Tibshirani、R.(1990)、
Generalized Additive Models
London:Chapman and Hall。
[2] Hastie、T.、Tibshirani、R. and Friedman、J.(2009)、
The Elements of Statistics Learning:Data Mining、Inference、and Prediction、2ndEd
Springer-Verlag。
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Ye、J.(1998)、
「データマイニングとモデル選択の影響の測定と修正」、
Journal of the American Statistical Association、Vol。93、No。441、pp 120-131
[4] Janson、L.、Fithian、W.、and Hastie、T.(2013)、
"Effective Degrees of Freedom:A Flawed Metaphor"
https://arxiv.org/abs/1312.7851