自由度は非整数の数値にできますか?


27

GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
一般に、はい、dfは浮動小数点数にすることができます。
デビッドレーン

6
あなたはおそらく実数(または整数ではない数)について尋ねることを意味します。浮動小数点数は、実装に関連するコンピューターの概念(実数を近似する方法)ですが、基礎となる数学的なアイデアについて本当に質問しています(したがって、数学的な質問をする方が良いです)。(何らかの理由で、常に良いとは限らない)概念的に整数である量が、それでも実装では浮動小数点数として格納される状況に遭遇することがよくあります。「モデルは非整数の自由度を持つことができますか?」タイトル用。
Glen_b -Reinstateモニカ

回答:


40

自由度は、多くのコンテキストで非整数です。実際、いくつかの状況では、特定のモデルのデータに適合する自由度は、値と間でなければならないことを確認できます。kk+1

通常、自由度は自由なパラメーターの数と考えられますが、パラメーターが完全に自由ではなく、カウントが難しい場合があります。これは、たとえば、スムージング/正則化するときに発生する可能性があります。

局所的に重み付けされた回帰/カーネル法の平滑化スプラインの場合は、このような状況の例です-自由パラメーターの総数は、予測変数を追加することで簡単に数えることができるものではないため、自由度のより一般的な考え方が必要です。

では一般化加法モデルこれにgam一部基づいており、HastieおよびTibshirani(1990)[1]は(そして実際に、他の多くの参考文献に)私たちは書くことができますいくつかのモデルに、自由度は時々であると解釈される(またはについても説明します)。1つ目は、両方が機能するより一般的なアプローチ(たとえば、通常の状況ではがの列次元になる回帰)ですが、が対称でべき等の場合、これら3つすべてと一致します数式は同じです。y^=AytrAtrAATtr2AAATtrAバツA

[十分な詳細を確認するのに便利なこのリファレンスはありません。同じ著者(およびフリードマン)が手に入れるのが簡単な代替手段は、Elements of Statistics Learning [2]です。たとえば、式5.16を参照してください。これは、平滑化スプラインの有効な自由度を(私の表記では)として定義しています。trA

さらに一般的には、Ye(1998)[3]は一般化された自由度をとして定義しました。これは、対応する観測値に対する近似値の感度の合計です。同様に、これはその定義が機能すると一致します。Yeの定義を使用するには、を計算し、データを少しだけ摂動する必要があります(数値的に計算するため)。これにより、非常に広く適用できます。y^ytrAy^y^y

で近似されたモデルの場合gam、これらのさまざまなメジャーは一般に整数ではありません。

(この問題に関するこれらの参考文献の議論を読むことを強くお勧めしますが、状況によってはストーリーがかなり複雑になる可能性があります。たとえば、[4]を参照してください)

[1] Hastie、T. and Tibshirani、R.(1990)、
Generalized Additive Models
London:Chapman and Hall。

[2] Hastie、T.、Tibshirani、R. and Friedman、J.(2009)、
The Elements of Statistics Learning:Data Mining、Inference、and Prediction、2ndEd
Springer-Verlag。
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye、J.(1998)、
「データマイニングとモデル選択の影響の測定と修正」、
Journal of the American Statistical Association、Vol。93、No。441、pp 120-131

[4] Janson、L.、Fithian、W.、and Hastie、T.(2013)、
"Effective Degrees of Freedom:A Flawed Metaphor"
https://arxiv.org/abs/1312.7851


7
この場合は関係ありませんが、分散が等しくない場合のウェルチ2サンプルt検定は、整数以外の自由度を持つことができます。
マイケルR.チャーニック

5
反復測定ANOVAのイプシロン補正dfも同様です。
デビッドレーン

2
別の参照はstatweb.stanford.edu/~tibs/ElemStatLearn/printings/…セクション5.4.1自由度とより滑らかなマトリックス
エイドリアン

1
@エイドリアンありがとう; 私はその参照だけを追加するかどうか(特に、指摘するセクションでeqn 5.16について言及するかどうか)をあきらめていました。私はそれはそれを追加することをお勧めしますと結論づけました。
Glen_b -Reinstateモニカは、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.