タグ付けされた質問 「goodness-of-fit」

適合度テストは、ランダムなサンプルが特定の分布からのものであると仮定することが妥当かどうかを示します。

1
片側コルモゴロフ-スミルノフ検定を実行するのは理にかなっていますか?
片側KSテストを実行することは意味があり、可能ですか?そのようなテストの帰無仮説は何でしょうか?または、KSテストは本質的に両側テストですか? 私はDの分布を理解するのに役立つ答えから恩恵を受けるでしょう(私はMasseyの1951年の論文で作業しており、たとえばとが差異の上限と下限です経験的CDFの違いの非絶対値の?)D+D+D^{+}D−D−D^{-} 追加の質問:および値はどのようにして取得されますか?私が遭遇している出版物の多くは、、および CDFではなく、テーブル化された値を提示しています。D + D − D n D + D −pppD+D+D^{+}D−D−D^{-}DnDnD_{n}D+D+D^{+}D−D−D^{-} 更新:関連する質問を発見しました。片側コルモゴロフ-スミルノフ検定の帰無仮説は何ですか?、これを書く前に最初のスキャンで見落としていました。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
分布がべき法則に従っているかどうかをテストする方法は?
何人のユーザーがいくつの質問を投稿したかに関するデータがあります。例えば、 [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... これは、2人のユーザーがそれぞれ100の質問を投稿し、9人のユーザーがそれぞれ10の質問を投稿したことを意味します。だから、どうすればUserCount, QuestionCount分布がべき法則に従っているますか? poweRlawパッケージを見つけました。ただし、評価を行うために1つのグループの数値のみを渡すことができます。(このパッケージで提供されている例は単語の頻度です。)では、このパッケージをどのように使用しますか?それとも何かおかしいのでしょうか?また、各ユーザーの質問数のデータもあり[100, 100, 10, 10, 10 ... ]ます。このデータをパッケージに渡すと、何が得られますか?

1
ロジスティック回帰モデルの評価
私はロジスティックモデルに取り組んでおり、結果を評価するのに苦労しています。私のモデルは二項ロジットです。説明変数は、15レベルのカテゴリ変数、二分変数、および2つの連続変数です。私のNは8000以上です。 私は、投資する企業の決定をモデル化しようとしています。従属変数は投資(yes / no)です。15レベルの変数は、マネージャーが報告する投資のさまざまな障害です。残りの変数は、販売、クレジット、および使用済み容量の制御です。 以下は、rmsR のパッケージを使用した私の結果です。 Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. 17 g 0.544 Dxy 0.264 2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266 max |deriv| 6e-09 gp 0.119 tau-a 0.118 Brier 0.213 …

2
データのサンプルがガンマ分布のファミリーに適合するかどうかをテストする方法は?
連続ランダム変数Xから生成されたデータのサンプルがあります。そして、Rを使用して描画したヒストグラムから、Xの分布は特定のガンマ分布に従っていると思います。しかし、私はこのガンマ分布の正確なパラメーターを知りません。 私の質問は、Xの分布がガンマ分布のファミリーに属するかどうかをテストする方法ですか?Kolmogorov-Smirnov検定、Anderson-Darling検定などの適合度検定がいくつか存在しますが、これらの検定を使用する際の制限の1つは、理論分布のパラメーターを事前に知っておく必要があることです。この問題を解決する方法を教えてください。

2
ロジスティック回帰モデルの評価
この質問は、ロジスティックモデルで十分かどうかを判断する方法に関する実際の混乱から生じています。従属変数として形成されてから2年後に、個々のプロジェクトのペアの状態を使用するモデルがあります。結果は成功(1)または失敗(0)です。ペアの形成時に測定された独立変数があります。私の目的は、私が仮定した変数がペアの成功に影響を与えるかどうかをテストし、その成功に影響を与え、他の潜在的な影響を制御することです。モデルでは、対象の変数は重要です。 モデルはのglm()関数を使用して推定されましたR。モデルの品質を評価するために、私はいくつかのことを行っている:glm()あなたは与えresidual deviance、AICそしてBICデフォルトで。さらに、モデルのエラー率を計算し、ビン化された残差をプロットしました。 完全なモデルは、私が推定した(および完全なモデルにネストされている)他のモデルよりも小さい残差、AICおよびBICを持っているため、このモデルは他のモデルよりも「優れている」と思います。 モデルのエラー率はかなり低く、IMHO(Gelman and Hill、2007、pp.99のように):、 error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)約20%です。 ここまでは順調ですね。しかし、ビン化された残差をプロットすると(再びGelman and Hillのアドバイスに従って)、ビンの大部分が95%CIの範囲外になります。 このプロットは、モデルにまったく問題があると思うように導きます。それはモデルを捨てることに私を導くべきですか?モデルが不完全であることを認める必要がありますが、それを維持し、対象変数の効果を解釈する必要がありますか?ビン化された残差プロットを実際に改善することなく、変数を順番に除外し、変換も試行錯誤しました。 編集: 現時点では、モデルには多数の予測子と5つの相互作用効果があります。 これらのペアは、すべてが短時間で形成されるという意味で(ただし、厳密に言えば、すべて同時にではない)という意味で互いに「比較的」独立しており、多数のプロジェクト(13k)と多数の個人(19k )そのため、かなりの割合のプロジェクトには1人の個人しか参加していません(約20000ペアあります)。

5
Eloレーティングまたはページランキングが私のセットにとって意味があることを証明するにはどうすればよいですか?
プレーヤーのセットがあります。彼らはお互いに対戦します(ペアワイズ)。プレイヤーのペアはランダムに選択されます。どのゲームでも、あるプレイヤーが勝ち、別のプレイヤーが負けます。プレイヤーは互いに限られた数のゲームをプレイします(一部のプレイヤーはより多くのゲームをプレイし、一部はより少ないゲームをプレイします)。そのため、データがあります(誰が誰に対して何回勝ちますか)。今、私はすべてのプレイヤーが勝利の確率を決定するランキングを持っていると仮定します。 この仮定が実際に真実かどうかを確認したい。もちろん、EloレーティングシステムまたはPageRankアルゴリズムを使用して、すべてのプレーヤーのレーティングを計算できます。しかし、評価を計算することによって、それら(評価)が実際に存在すること、またはそれらが何を意味するかを証明しません。 言い換えれば、私はプレイヤーが異なる強さを持っていることを証明する(またはチェックする)方法を持ちたいです。どうすればできますか? 追加されました 具体的には、8人のプレイヤーと18のゲームしかありません。そのため、互いに対戦しなかったプレイヤーのペアがたくさんあり、お互いに一度だけプレイしたペアがたくさんあります。結果として、私は与えられたプレーヤーのペアの勝利の確率を推定できません。たとえば、6ゲームで6回勝ったプレーヤーがいることもわかります。しかし、それは単なる偶然かもしれません。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

1
Rのnlsの適合度を読み取る方法
nls()の出力を解釈しようとしています。私はこの記事を読んだことがありますが、最適な選択方法をまだ理解していません。私の適合から、2つの出力があります。 > summary(m) Formula: y ~ I(a * x^b) Parameters: Estimate Std. Error t value Pr(>|t|) a 479.92903 62.96371 7.622 0.000618 *** b 0.27553 0.04534 6.077 0.001744 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 120.1 on 5 degrees …

1
帰無仮説での決定係数
私が作っ文の好奇心、このテキストの最初のページの下部に 係るR2adjustedRadjusted2R^2_\mathrm{adjusted}調整 R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). テキストの状態: 調整の論理は次のとおりです。通常の重回帰では、ランダムな予測子が平均して応答の変動の割合を説明するため、ランダムな予測子が平均して応答の変動。つまり、期待値はです。[ ]式をその値に適用すると、すべての予測変数がランダムであり、ます。m m /(n – 1 )1/(n–1)1/(n–1)1/(n – 1)mmmm/(n–1)m/(n–1)m/(n – 1)R2R2R^2E(R2)=m/(n–1)E(R2)=m/(n–1)\mathbb{E}(R^2) = m/(n – 1)R2adjustedRadjusted2R^2_\mathrm{adjusted}R2adjusted=0Radjusted2=0R^2_\mathrm{adjusted} = 0 これは、非常にシンプルで解釈可能な動機のようです。ただし、単一のランダム(つまり、無相関)予測子に対してであると判断することはできませんでした。 E(R 2)= 1 /(n – 1 )R2adjustedRadjusted2R^2_\mathrm{adjusted}E(R2)=1/(n–1)E(R2)=1/(n–1)\mathbb{E}(R^2)=1/(n – 1) 誰かが私をここで正しい方向に向けることができますか?

1
Rの回帰スプラインを使用したロジスティック回帰
私は、英国の頭部外傷の全国外傷データベースからの遡及データに基づいてロジスティック回帰モデルを開発しています。主要な結果は30日間の死亡率です(「生存率」指標として示されます)。以前の研究の結果に対する有意な効果の公表された証拠を持つ他の測定には、以下が含まれます: Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

4
非常に大きなサンプルサイズの適合度
カテゴリデータの非常に大きなサンプル(> 1,000,000)を毎日収集し、データ収集のエラーを検出するために、データが日ごとに「著しく」異なるように見えることを確認したい。 適合度テスト(特にG検定)を使用することは、これに適している(しゃれを意図している)と思いました。予想される分布は、前日の分布によって与えられます。 しかし、私のサンプルサイズは非常に大きいため、テストの出力は非常に高く、多くの誤検出が発生します。つまり、ごくわずかな日ごとの変動でも、p値はほぼゼロになります。 最終的に、テスト統計に定数(0.001)を乗算しました。これは、そのレートでデータをサンプリングするという良い解釈があります。この記事はこのアプローチに同意するようです。彼らは言った: カイ2乗は、約100〜2500人のサンプルで最も信頼性が高い これについて、より信頼できるコメントを探しています。または、大規模なデータセットで統計テストを実行する場合の誤検知に対する代替ソリューションの可能性があります。

3
診断メトリック(
私は自分のモデルを適合させ、それが良いかどうかを理解しようとしています。私はそれを評価するために推奨されるメトリック(R2R2R^2 / AUC /精度/予測誤差/など)を計算しましたが、それらを解釈する方法がわかりません。要するに、私のモデルがメトリックに基づいて良いかどうかはどのようにしてわかりますか?あるR2R2R^2、私は推論やベース科学/ビジネス上の意思決定を描画するために進んでみましょうするのに十分な(例えば)0.6のは? この質問は、メンバーが頻繁に遭遇するさまざまな状況をカバーするために、意図的に広くなっています。このような質問は、この質問の重複として閉じることができます。ここで説明したメトリックを超えて範囲を広げる編集、およびその他の回答、特に他のクラスのメトリックに関する洞察を提供するものは歓迎されます。

1
ゼロ膨張のポアソンまたはゼロ膨張の負の二項式の「逸脱」の測定?
D = 2 *(飽和モデルの対数尤度-適合モデルの対数尤度)として定義されるスケーリングされた逸脱は、GLMモデルの適合度の尺度としてよく使用されます。[D(null model)-D(fitted model)] / D(null model)として定義される逸脱率の説明は、線形回帰のR-2乗のGLMアナログとしても使用されます。ZIP分布とZINB分布が指数分布の分布の一部ではないという事実を除けば、説明された逸脱度と逸脱度のパーセントがゼロインフレートモデリングで使用されない理由を理解できません。誰もがこれにいくつかの光を当てるか、役立つ参考資料を提供できますか?前もって感謝します!

3
「反転」シャピロ・ウィルク
ウィキペディアによれば、シャリポウィルク検定は、帰無仮説()「母集団は正規分布である」を検定します。H0H0H_0 「人口は正規分布していない」を使用した同様の正規性検定を探しています。H0H0H_0 そのようなテストがある、有意水準 iffを棄却する値を計算したいと思います。私の人口が正規分布していることを証明します。H 0 α P &lt; αpppH0H0H_0αα\alphap&lt;αp&lt;αp < \alpha してくださいノートSharipo・ウィルク検定を使用して受け入れていることを IFFある間違ったアプローチ、それは文字通り「我々はH0が保持していないことを証明する十分な証拠を持っている」を意味するから。 p &gt; αH0H0H_0p&gt;αp&gt;αp > \alpha 関連スレッド- の意味 -値はppp、正常では役に立たないテストしていますか?、しかし私は私の問題の解決策を見ることができません。 質問:どのテストを使用する必要がありますか?Rで実装されていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.