タグ付けされた質問 「goodness-of-fit」

適合度テストは、ランダムなサンプルが特定の分布からのものであると仮定することが妥当かどうかを示します。

2
フィッティングなしでモデルを比較するにはどうすればよいですか?
自然科学では、回帰と機械学習を使用して、仮説をテストし、パラメーターを推定し、モデルをデータに適合させることで予測を行います。ただし、アプリオリモデルがある場合は、フィッティングを行いたくありません。たとえば、第一原理から計算された決定論的な物理システムのモデルなどです。モデルがデータとどの程度一致しているかを知り、モデルのどの部分が一致に大きく貢献しているかを知りたいだけです。誰かがこれを行うための統計的に厳密な方法に私を向けることができますか? より具体的な用語で、私は従属変数の測定対象の物理的システムがあると( 1からの範囲様々な条件下では、サンプルサイズ)は、3つの独立変数によって記述、、および。データを生成した実際のシステムは複雑ですが、システムの理論モデルを導出するためにいくつかの簡略化の仮定を行いました。yiyiy_iiiinnnx1,ix1,ix_{1,i}x2,ix2,ix_{2,i}x3,ix3,ix_{3,i}fff yi=f(x1,i,x2,i,x3,i)+ϵiyi=f(x1,i,x2,i,x3,i)+ϵiy_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i、 ここで、は独立変数の非線形(線形化可能ではない)関数であり、はモデルの予測値と測定値の差です。は完全に事前に指定されています。フィッティングは行われず、パラメーターは推定されません。私の最初の目標は、が測定値を生成したプロセスの妥当なモデルであるかどうかを判断することです。fffϵiϵi\epsilon_iffffffyiyiy_i また、簡略化されたモデルとも開発しました。これらはネストされています(この場合重要です)。私の2番目の目標は、fがgまたはhよりもはるかによくデータと一致するかどうかを判断することです。モデルfをモデルgおよびhと区別する機能がy iを生成するプロセスで重要な役割を果たすことを示唆しています。g(x1,i,x2,i)g(x1,i,x2,i)g(x_{1,i}, x_{2,i})h(x1,i)h(x1,i)h(x_{1,i})ffffffggghhhfffggghhhyiyiy_i これまでのアイデア おそらく、私の数学モデルのパラメーターの数または自由度の数を決定する方法があった場合、尤度比検定やAIC比較などの既存の手順を使用することが可能です。ただし、fffの非線形形式と明らかなパラメーターがないため、パラメーターを割り当てるのが妥当であるか、それとも自由度を構成するものを想定するのが妥当かどうかはわかりません。 決定係数(R2R2R^2)などの適合度の測定値を使用して、モデルのパフォーマンスを比較できることを読みました。ただし、R2R2R^2値間の有意差のしきい値が何であるかは、私にはわかりません。さらに、モデルをデータに適合させていないため、残差の平均はゼロではなく、モデルごとに異なる場合があります。したがって、データを過小予測する傾向があるよく一致するモデルは、偏りはないがデータとの一致が不十分なモデルと同じくらいR2R2R^2値が低くなる可能性があります。 適合度テスト(例:Anderson-Darling)についても少し読んだことがありますが、統計は私の分野ではないので、このタイプのテストが私の目的にどれだけ適しているかはわかりません。どんなガイダンスもいただければ幸いです。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
非線形モデルの適合度
観測データに非線形関数を適合させました。次のステップは、この関数の適合度の評価です(線形モデルのように)。R2R2R^2 これを測定する通常の方法は何ですか? 編集1: フィッティングは次のように実行されました。 独立変数AおよびBを使用して線形回帰を実行します。 回帰パラメーターから分布のパラメーターを計算します。(分布は非線形であり、変数Cを入力として使用します。) 推定データと観測データを比較して、非線形分布の適合度を評価します。 編集2: 上記のステップの例: 回帰モデル:log(y)=β0+β1⋅log(a)+β2⋅log(b)log(y)=β0+β1⋅log(a)+β2⋅log(b)log(y) = \beta_0 + \beta_1 \centerdot log(a) + \beta_2 \centerdot log(b) およびθ=β2次の非線形分布のために:F()=ρ⋅A-θρ=−β0β1ρ=−β0β1\rho = -\frac{\beta_0}{\beta_1}θ=β2θ=β2\theta = \beta_2f(a)=ρ⋅a−θf(a)=ρ⋅a−θf(a) = \rho \centerdot a^{-\theta} f(a)f(a)f(a)(a,f(a))(a,f(a))(a, f(a))


2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

3
二項データでRの適合度を使用する場合のNaN p値
二項式へのカウントデータのベクトルの適合度をテストしようとしています。そのためにgoodfit()、vcdパッケージの関数を使用しています。ただし、関数を実行するNaNと、カイ2乗検定のp値が返されます。私のセットアップでは、75要素のカウントデータのベクトルがあります。 > library(vcd) > counts <- c(32, 35, 44, 35, 41, 33, 42, 49, 36, 41, 42, 45, 38, 43, 36, 35, 40, 40, 43, 34, 39, 31, 40, 39, 36, 37, 37, 37, 32, 48, 41, 32, 37, 36, 49, 37, 41, 36, 34, 37, 41, 32, 36, 36, …

1
ベイジアンp値にデータに加えてパラメーターが含まれるのはなぜですか?
Gelmanのベイジアンデータ分析の146ページで、Gelmanはモデルの適合性をチェックする方法としてベイジアンp値について説明しています。アイデアは、観測データ()を、実験を再現した場合にモデルによって生成された可能性のあるデータ()と比較することです。yyyyrepyrepy^{rep} 彼はベイジアンp値を次のように定義しています。 pB=Pr(T(yrep,θ)≥T(y,θ)|y)pB=Pr(T(yrep,θ)≥T(y,θ)|y) p_B = Pr(T(y^{rep}, \theta) \geq T(y, \theta) | y) テスト統計をパラメーターの関数であるにするのが理にかなっている理由がよくわかりません。実際、目標が「観測されたデータとモデルによって生成された可能性のあるデータとの比較」である場合、比較は厳密にと間で行われるべきではありませんか?θθ\thetayyyyrepyrepy^{rep} たとえば、同じページのGelmanは、通常のモデルの適合性をチェックする例を提供しています。テスト統計は次のとおりです。 T(y,θ)=|y(61)−θ|−|y(6)−θ|T(y,θ)=|y(61)−θ|−|y(6)−θ| T(y, \theta) = | y_{(61)} - \theta | - |y_{(6)} - \theta | ここで、は通常のモデルの平均です。この検定統計量は、6次および61次の統計量を超えて、極端な尾でのモデルの適合を無視するように設計されています。θθ\theta 代わりに次の検定統計量を使用して、純粋にデータに依存しないのはなぜですか? T(y,θ)=|y(61)−y¯|−|y(6)−y¯|T(y,θ)=|y(61)−y¯|−|y(6)−y¯| T(y, \theta) = | y_{(61)} - \bar y | - |y_{(6)} - \bar y |
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.