タグ付けされた質問 「degrees-of-freedom」

「自由度」という用語は、統計の最終的な計算で変化することのない値の数を表すために使用されます。「有効自由度」にも使用します。

11
自由度を理解する方法は?
ウィキペディアから、統計の自由度の3つの解釈があります。 統計では、自由度の数は、統計の最終計算で自由に変化できる値の数です。 統計パラメータの推定は、さまざまな量の情報またはデータに基づいて行うことができます。パラメーターの推定値に入る独立した情報の数は、自由度(df)と呼ばれます。一般的に、パラメータの推定値の自由度は、に等しい推定に入る独立したスコアの数マイナスパラメータ自体の推定における中間ステップとして使用されるパラメータの数(標本分散です、 1つは、サンプル平均が唯一の中間ステップであるためです)。 数学的には、自由度はランダムなベクトルの領域の次元、または本質的に「自由な」コンポーネントの数です。ベクトルが完全に決定されるまでに必要なコンポーネントの数。 大胆な言葉は私がよく理解していないものです。可能であれば、いくつかの数学的定式化が概念の明確化に役立ちます。 また、3つの解釈は互いに一致しますか?

2
Hosmer-Lemeshowテストのの自由度
ロジスティック回帰モデルの適合度(GOF)に対するHosmer-Lemeshow検定(HLT)の検定統計量は、次のように定義されます。 その後、サンプルは単位、に分割され、十分位ごとに次の量が計算されます。d= 10d=10d=10D1、D2、… 、DdD1、D2、…、DdD_1, D_2, \dots , D_{d} O1つのD= ∑I ∈ Ddy私O1d=∑私∈Ddy私O_{1d}=\displaystyle \sum_{i \in D_d} y_i、すなわち、十分位数での陽性症例の観測数。DdDdD_d O0 d= ∑I ∈ Dd(1 − y私)O0d=∑私∈Dd(1−y私)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)、すなわち、十分位数で観測された負のケースの数。DdDdD_d E1つのD= ∑I ∈ Ddπ^私E1d=∑私∈Ddπ^私E_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i、つまり十分位数陽性症例の推定数。DdDdD_d E0 d= ∑I ∈ Dd(1 - π^私)E0d=∑私∈Dd(1−π^私)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)、すなわち、十分位数負のケースの推定数。DdDdD_d ここで、は番目の観測の観測されたバイナリ結果で、はその観測の推定確率です。y私y私y_iπ I私私iπ^私π^私\hat{\pi}_i 次に、検定統計量は次のように定義されます。 …

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


2
混合効果モデルをどのように比較または検証する必要がありますか?
(線形)混合効果モデルは通常どのように互いに比較されますか?尤度比検定を使用できることは知っていますが、一方のモデルが他方のモデルの「サブセット」でない場合、これは機能しませんか? モデルdfの推定は常に簡単ですか?固定効果の数+推定される分散成分の数 ランダム効果の推定値を無視しますか? 検証はどうですか?私の最初の考えは相互検証ですが、データの構造を考えるとランダムな折り畳みは機能しないかもしれません。「1つのサブジェクト/クラスターを除外する」方法論は適切ですか?1つの観察結果を除外するのはどうですか? Mallows Cpは、モデルの予測誤差の推定値として解釈できます。AICを介したモデル選択は、予測エラーを最小化しようとします(したがって、エラーがガウス分布である場合、CpとAICは同じモデルを選択する必要があります)。これは、AICまたはCpを使用して、いくつかのネストされていないモデルのコレクションから予測エラーの観点から「最適な」線形混合効果モデルを選択できることを意味しますか?(同じデータに当てはまる場合)BICは、候補者の間で「真の」モデルを選択する可能性がまだ高いですか? また、AICまたはBICを介して混合効果モデルを比較する場合、実際のモデルdfではなく、計算で固定効果のみを「パラメーター」として数えるという印象を受けています。 これらのトピックに関する良い文献はありますか?cAICまたはmAICを調査する価値はありますか?AIC以外の特定のアプリケーションがありますか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
2 t分布の差の分布は何ですか
... なぜ ? 想定すると、はそれぞれ平均および分散独立したランダム変数です。私の基本的な統計の本は、分布には次の特性があることを示しています。X1X1X_1X2X2X_2μ1,μ2μ1,μ2\mu_1,\mu_2σ21,σ22σ12,σ22\sigma^2_1,\sigma^2_2X1−X2X1−X2X_1-X_2 E(X1−X2)=μ1−μ2E(X1−X2)=μ1−μ2E(X_1-X_2)=\mu_1-\mu_2 Var(X1−X2)=σ21+σ22Var(X1−X2)=σ12+σ22Var(X_1-X_2)=\sigma^2_1 +\sigma^2_2 Now let's say X1X1X_1, X2X2X_2 are t-distributions with n1−1n1−1n_1-1, n2−2n2−2n_2-2 degrees of freedom. What is the distribution of X1−X2X1−X2X_1-X_2 ? This question has been edited: The original question was "What are the degrees of freedom of the difference of two t-distributions ?". mpiktas …

4
ニューラルネットワークで「自由度」とはどういう意味ですか?
Bishopの本「Pattern Classification and Machine Learning」では、ニューラルネットワークのコンテキストでの正則化の手法について説明しています。ただし、トレーニングプロセス中に、モデルの複雑度とともに自由度の数が増加することを説明する段落は理解できません。関連する引用は次のとおりです。 ネットワークの効果的な複雑さを制御する方法としての正規化の代替は、早期停止の手順です。非線形ネットワークモデルのトレーニングは、トレーニングデータのセットに関して定義されたエラー関数の反復的な削減に対応します。共役勾配など、ネットワークトレーニングに使用される最適化アルゴリズムの多くでは、エラーは反復インデックスの増加しない関数です。ただし、一般に検証セットと呼ばれる独立したデータに関して測定されたエラーは、多くの場合、最初は減少し、その後ネットワークが過剰になり始めると増加します。したがって、図5.12に示すように、検証データセットに関して最小のエラーのポイントでトレーニングを停止して、良好な一般化パフォーマンスを持つネットワークを取得できます。この場合のネットワークの振る舞いは、ネットワーク内の有効な自由度の観点から定性的に説明されることがあります。モデルの複雑さ。 また、トレーニングの過程でパラメーターの数が増加することも示しています。「パラメータ」とは、ネットワークの隠されたユニットによって制御される重みの数を指すと仮定していました。おそらく、正則化プロセスによって重みが大きさで増加することは防がれますが、数は変わらないので、私は間違っています。かなりの数の隠れユニットを見つけるプロセスを指しているのでしょうか? ニューラルネットワークの自由度とは何ですか?トレーニング中にどのパラメーターが増加しますか?

2
回帰の定義自然3次スプライン
私はHastieらによる「統計学習データマイニング、推論、および予測の要素」という本からスプラインについて学んでいます。145ページで、Natural 3次スプラインが境界の結び目を越えて線形であることを発見しました。スプラインにはノット、があり、本のそのようなスプラインについては次のとおりです。KKKξ1、ξ2、。。。ξKξ1、ξ2、。。。ξK\xi_1, \xi_2, ... \xi_K 質問1: 4自由度はどのように解放されますか?私はこの部分を取得しません。 質問2:の定義において場合次いで。この式で著者がやろうとしていることは何ですか?これは、スプラインが境界ノットを超えて線形であることを確認するのにどのように役立ちますか?dk(X)dk(バツ)d_k(X)k = Kk=Kk=KdK(X)= 00dK(バツ)=00d_K(X) = \frac 0 0

2
不等分散のt検定における非整数の自由度の説明
SPSS t-Testプロシージャは、2つの独立した平均を比較するときに2つの分析を報告します。1つの分析は等分散を仮定し、もう1つは等分散を仮定しません。等しい分散が仮定される場合の自由度(df)は、常に整数値(およびn-2に等しい)です。等分散が仮定されていない場合のdfは非整数(11.467など)であり、n-2の近くにはありません。これらの非整数dfの計算に使用されるロジックと方法の説明を求めています。

2
ウェルチt検定の自由度の報告
不等分散(Welch-SatterthwaiteまたはWelch-Aspinとも呼ばれます)のウェルチt検定は、一般に非整数の自由度を持ちます。テストの結果を報告するとき、これらの自由度はどのように引用されるべきですか? さまざまな情報源*によると、「標準トンのテーブルに相談する前に最も近い整数に切り捨てするために、従来のです」 - 。保守的である、丸めのこの方向として理にかなっている。**一部の古い統計ソフトウェア(例えば、あまりにもこれを行うだろうグラフパッド・プリズムバージョンの前に6)といくつかのオンライン計算機はまだあります。この手順が使用されていた場合、切り捨てられた自由度を報告することが適切と思われます。(より優れたソフトウェアを使用することはさらに適切かもしれません!) しかし、最新のパッケージの大部分は小数部分を使用しているため、この場合は小数部分を引用する必要があります。1000分の1の自由度はp値にごくわずかな影響しか与えないため、小数点以下2桁以上を引用するのが適切であるとは思えません。 Googleの学者を見てみると、dfを小数点以下1桁または2桁の整数として引用している論文を見ることができます。使用する精度についてのガイドラインはありますか?また、ソフトウェアは、完全な小数部を使用する場合、引用されたDFは丸められるべきダウン図形の所望の数(例えばに対して7.5845...→7.57.5845...→7.57.5845... \rightarrow 7.5 1〜DPまたは→7→7\rightarrow 7整数として)保存的計算と適切であったとして、または私にとってより賢明なように、7.5845 ... → 7.6から1 dpまたは→ 8が最も近い全体になるように、従来のように(最も近い)丸められますか?7.5845...→7.67.5845...→7.67.5845... \rightarrow 7.6→8→8\rightarrow 8 編集:非整数dfを報告する最も理論的に健全な方法を知っていることは別として、人々が実際に何をしているかを知ることも良いでしょう。おそらく、ジャーナルとスタイルガイドには独自の要件があります。私は、APAのような影響力のあるスタイルガイドが何を要求するのか興味があります。私が識別できることから(マニュアルはオンラインで無料で入手できません)、APAは一般的に、p値(2または3dpの可能性があります)およびパーセンテージ(最寄りパーセント) -カバー回帰スロープ、そのトンの統計、Fの統計、χ2χ2\chi^2統計など。これは非常に非論理的で、小数点以下2桁が非常に異なる有効数字を占め、982.47よりも2.47でかなり異なる精度を示唆しますが、非科学的なサンプルで見た小数点以下2桁のウェルチdfの数を説明するかもしれません。 ∗∗* eg GD、ラクストン不等分散t検定は、スチューデントのt検定およびMann-Whitney U検定の未使用の代替手段です。行動生態学(2006年7月/ 8月)17(4):688-690 doi:10.1093 / beheco / ark016 ∗∗∗∗** Welch-Satterthwaite近似自体は保守的である場合と保守的でない場合がありますが、保守的でない場合は、自由度を切り捨てても全体を補償する保証はありません。

1
リッジ回帰のAIC:自由度とパラメーターの数
リッジ回帰モデルのAICcを計算します。問題はパラメーターの数です。線形回帰の場合、ほとんどの人は、パラメーターの数が推定係数とシグマ(誤差の分散)の数に等しいことを示唆しています。 リッジ回帰に関しては、ハットマトリックスのトレース(自由度(df))がAIC式のパラメーターの項の数として単純に使用されることを読みました(たとえばhereまたはhere)。 これは正しいです?dfを使用してAICcを計算することもできますか?エラー分散を説明するために、dfに+1を追加することはできますか?

1
多重線形回帰の自由度
重回帰の自由度はに等しく、は変数の数です。N− k − 1N−k−1N-k-1kkk ん(すなわち、応答変数が含ま)?たとえば、モデルでは、(つまり、、、およびに対してそれぞれ1 df )ですか?kkkYYYY=B0+B1X1+B2X2Y=B0+B1X1+B2X2Y = B_0 + B_1X_1 + B_2X_2k=3k=3k = 3YYYX1X1X_1X2X2X_2

1
LASSOの自由度の直観
ゾウ他 「なげなわの「自由度」」(2007)は、非ゼロ係数の数がなげなわの自由度の公平で一貫した推定値であることを示しています。 それは私には少し直感に反しているようです。 回帰モデルがあると仮定します(変数は平均がゼロです)。 y= βX + ε 。y=βバツ+ε。y=\beta x + \varepsilon. 無制限のOLS推定値がます。これは、非常に低いペナルティ強度に対する LASSO推定値とほぼ一致する可能性があります。ββ\betaβ^O L S= 0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta さらに、特定のペナルティ強度 LASSO推定値がます。たとえば、は、クロス検証を使用して見つかったデータセットの「最適な」になります。 λ∗λ∗\lambda^*β^L A SSO 、λ∗= 0.4β^LASSO、λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4λ∗λ∗\lambda^*λλ\lambda 正しく理解すれば、どちらの場合も1つの非ゼロ回帰係数があるため、どちらの場合も自由度は1です。 質問: はよりもフィッティングの「自由」が少ないことを示唆しているのに、どちらの場合も自由度は同じなのでしょうか? β OLS=0.5β^L A SSO 、λ∗= 0.4β^LASSO、λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4β^O L S= 0.5β^OLS=0.5\hat\beta_{OLS}=0.5 参照: Zou、Hui、Trevor Hastie、およびRobert Tibshirani。「投げ縄の「自由度」について。」 統計学年報35.5(2007):2173-2192。

3
と残差逸脱の自由度を使用したロジスティック回帰係数のテスト
概要:標準正規分布ではなく、ロジスティック回帰係数のテストに分布(残留偏差に基づく自由度を伴う)の使用をサポートする統計理論はありますか?ttt SAS PROC GLIMMIXでロジスティック回帰モデルをフィッティングする際、デフォルト設定でロジスティック回帰係数が標準正規分布ではなく分布を使用してテストされることを少し前に発見しました。つまり、GLIMMIXはの比率で列を報告します(この質問の残りの部分ではと呼びます)、ただし「自由度」列、および分布を仮定した値も報告しますttt11^1β^1/ var (β^1)−−−−−−√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}zzzppptttzzz残差偏差に基づく自由度-つまり、自由度=観測の総数からパラメータの数を引いたもの。この質問の最後に、デモンストレーションと比較のためにRとSASでコードと出力を提供します。22^2 ロジスティック回帰などの一般化線形モデルでは、この場合の分布の使用をサポートする統計理論はないと考えていたため、これは私を混乱させました。代わりに、この事件について私たちが知っていることはttt zzzは「ほぼ」正規分布しています。 この近似は、サンプルサイズが小さい場合には不十分です。 それにもかかわらず、が正規回帰の場合に想定できるような分布を持っていると想定することはできません。zzzttt さて、直感的なレベルでは、がほぼ正規分布している場合、実際には、正確にでなくても、基本的に「似た」分布を持っているかもしれません。したがって、ここでの分布の使用はおかしくないようです。しかし、私が知りたいことは次のとおりです。zzzttttttttt 実際、ロジスティック回帰および/または他の一般化線形モデルの場合、実際に分布に従うことを示す統計理論はありますか?zzzttt そのような理論がない場合、この方法で分布を仮定することは、正規分布を仮定することと同様に、またはそれよりもさらに良いことを示す論文が少なくともありますか?ttt より一般的には、おそらく基本的に賢明であるという直感以外に、GLIMMIXがここで行っていることに対する実際のサポートはありますか? Rコード: summary(glm(y ~ x, data=dat, family=binomial)) R出力: Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: Estimate Std. Error z …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.