タグ付けされた質問 「goodness-of-fit」

適合度テストは、ランダムなサンプルが特定の分布からのものであると仮定することが妥当かどうかを示します。



5
オーバーフィッティング:特効薬はありませんか?
私の理解では、適切な相互検証とモデル選択手順を踏んだとしても、モデルの複雑さ、期間に制限を課さない限り、モデルを十分に検索すると過適合が発生します。さらに、多くの場合、人々は、提供できる保護を損なうデータからモデルの複雑さに対する罰則を学ぼうとします。 私の質問は次のとおりです。上記の声明にはどれほど真実がありますか? MLの専門家は、「私の会社/研究室では、利用可能なすべてのモデル(キャレットやscikit-learnなどのライブラリから)を常に試して、どれが最適かを確認します」とよく耳にします。私はしばしば、このアプローチは交差検証に真剣であり、任意の方法でホールドアウトセットを保持している場合でも簡単にオーバーフィットできると主張します。さらに、検索が難しくなればなるほど、オーバーフィットする可能性が高くなります。言い換えれば、過剰な最適化は本当の問題であり、体系的にそれと戦うのに役立つ経験則はありません。このように考えるのは間違っていますか?

2
回帰における直線性のテストの難しさ
で統計モデリング:二つの文化レオ・ブレイマンは書いて 現在適用されている方法は、適合度テストと残差分析を使用してデータモデルの適合をチェックすることです。ある時点で、数年前、私は制御された量の非線形性を持つ7つの次元で回帰問題をシミュレートしました。適合度の標準テストでは、非線形性が極端になるまで線形性を拒否しませんでした。 ブライマンは、シミュレーションの詳細を提供していません。彼は、彼の観察を理論的に正当化する論文を引用していますが、論文は未発表です。 ブリーマンの主張を裏付ける公開されたシミュレーション結果や理論論文を見た人はいますか?

2
べき乗則に対するトレンドラインの適合度を測定/議論する方法は?
トレンドラインに合わせようとしているデータがあります。データはべき乗則に従うと信じているので、直線を探して対数軸にデータをプロットしました。これにより、(ほぼ)直線になったため、Excelでべき乗則のトレンドラインを追加しました。統計の初心者なので、私の質問は、「線がかなりよく似ているように見える」から「数値特性はこのグラフがべき法則によって適切に適合していることを証明する」に進む最良の方法は何ですか? バツバツx Excelではrの2乗値を取得できますが、統計に関する知識が限られているため、これが特定の状況で実際に適切かどうかさえわかりません。Excelで作業しているデータのプロットを示す以下の画像を含めました。私はRに少し経験があるので、分析がツールによって制限されている場合、Rを使用してRを改善する方法についての提案を受け入れています。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
ロバスト線形モデルの重み付き
MASSパッケージのRを使用してrlm()、MMの重みでロバストな線形モデルを推定しました。`R``はモデルの値を提供しませんが、意味のある量であればR 2が欲しいです。また、ロバスト回帰で観測値に重みが付けられたのと同じ方法で、合計分散と残差を重み付けするR 2値を持つことに意味があるかどうかを知りたいと思っています。私の一般的な考え方は、回帰の目的で、何らかの方法で外れ値であるため、いくつかの推定値の影響が少ない重みを本質的に使用している場合、r 2を計算するためにそれらを与える必要があるかもしれないということです同じ見積もりは影響が少ない?R2R2R^2R2R2R^2r2r2r^2 と重み付きR 2の2つの簡単な関数を書きました。それらは以下にあります。また、HI9と呼ばれる私のモデルに対してこれらの関数を実行した結果も含めました。編集:私は式を与えるUNSWのアデルコスターのウェブページが見つかりそれは両方の計算の計算に重みベクトルを含んでいると、私がやったように、そしてより正式な参照のために彼女に尋ねた:のhttp://web.maths。 unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html(この重み付けされたr 2の解釈方法については、Cross Validatedからのヘルプを引き続き探しています。)R2R2R^2R2R2R^2R2SSeSStr2r2r^2 #I used this function to calculate a basic r-squared from the robust linear model r2 <- function(x){ + SSe <- sum((x$resid)^2); + observed <- x$resid+x$fitted; + SSt <- sum((observed-mean(observed))^2); + value <- 1-SSe/SSt; + return(value); + } r2(HI9) [1] 0.2061147 #I …

1
適合度と線形回帰またはポアソンを選択するモデル
私の研究では、3つの大きな医薬品とイノベーションのケーススタディである2つの主なジレンマに関するアドバイスが必要です。年間の特許数は従属変数です。 私の質問は 良いモデルの最も重要な基準は何ですか?重要なことは何ですか?ほとんどまたはすべての変数が重要になるのでしょうか?「F STATISTIC」の問題ですか?「調整済みRの2乗」の値ですか? 第二に、研究に最適なモデルをどのように決定できますか?カウント変数(多分ポアソンカウント)である特許のほかに、資産収益率、研究開発予算、繰り返されるパートナー(バイナリ変数ではない%)、企業規模(従業員)などの説明変数があります。線形回帰またはポアソンを実行する必要がありますか?

1
2Dヒストグラムの適合度
星のパラメーターを表す2つのデータセットがあります。観測されたデータとモデル化されたデータです。これらのセットを使用して、2色図(TCD)と呼ばれるものを作成します。サンプルは次のとおりです。 Aは観測されたデータであり、Bはモデルから抽出されたデータです(黒い線は気にせず、ドットはデータを表します)Aダイアグラムは1つしかありませんが、必要な数の異なるBダイアグラムを作成できます。Aに最適なものを保持するため。 したがって、私が必要とするのは、ダイアグラムB(モデル)からダイアグラムA(観察)への適合度をチェックする信頼できる方法です。 今私がしていることは、両方の軸をビニングすることで各ダイアグラムの2Dヒストグラムまたはグリッド(私はそれを呼んでいますが、より適切な名前かもしれません)を作成します(それぞれ100ビン)その後、グリッドの各セルを通過しますそして、その特定のセルのAとBの間のカウントの絶対差を見つけます。すべてのセルを処理した後、各セルの値を合計するため、AとBの間の適合度()を表す単一の正のパラメーターになります。ゼロに最も近いほど、適合度が高くなります。基本的に、これはそのパラメータがどのように見えるかです:gfgfgf gf=∑ij|aij−bij|gf=∑ij|aij−bij|gf = \sum_{ij} |a_{ij}-b_{ij}|; ここで、はその特定のセル(決定)のダイアグラムAの星の数であり、はBの数です。aijaija_{ij}ijijijbijbijb_{ij} これは、各セルのカウントの差が、作成したグリッドでどのように見えるかです絶対値を使用していないことに注意してくださいしかし、この画像では私が行う計算する際にそれらを使用し)パラメータを:(aij−bij)(aij−bij)(a_{ij}-b{ij})(aij−bij)(aij−bij)(a_{ij}-b{ij})gfgfgf 問題は、これが適切な推定量ではないかもしれないとアドバイスされたことです。主に、パラメータが低いためにこの適合が他の適合よりも優れていると言う以外は、私は本当に何も言えません。 重要: (これを提示してくれた@PeterEllisに感謝) 1- Bのポイントは、Aのポイントと1対1で関連付けられていません。これは、最適なフィットを検索する際に留意すべき重要なことです。AとBのポイントの数は必ずしも同じではなく、適合度テストもこの不一致を考慮して最小化しようとします。 2-すべてのBデータセット(モデル出力)のポイント数は、Aに合わせようとしていますが、固定されていません。 私はいくつかのケースで使用されるカイ二乗検定を見てきました: ∑i(Oi−Ei)2/Ei∑i(Oi−Ei)2/Ei\sum_i (O_i-E_i)^2/E_i ; ここで、は観測頻度(モデル)、は予想頻度(観測)です。OiOiO_iEiEiE_i しかし、問題は次のとおりですがゼロの場合はどうすればよいですか?上の画像でわかるように、その範囲でこれらのダイアグラムのグリッドを作成すると、がゼロのセルがたくさんあります。EiEiE_iEiEiE_i また、ヒストグラムが関係するこのような場合に対数尤度ポアソン検定を適用することを推奨する人もいます。これが正しい場合、誰かがこの特定のケースにそのテストを使用する方法を教えてくれれば本当に感謝しています(統計の私の知識はかなり貧弱なので、できるだけ簡単にしてください:)

2
データベースのビン境界がカイ二乗適合度検定に及ぼす影響?
この種の状況でのカイ二乗の低電力の明らかな問題は別として、データをビニングすることにより、指定されていないパラメーターを使用して密度のカイ二乗検定を行うことを想像してください。 具体的には、平均が不明でサンプルサイズが100の指数分布であるとします。 ビンごとに合理的な数の予想観測値を取得するには、データのアカウントを取得する必要があります(たとえば、平均より下に6ビン、上に4ビンを配置することを選択した場合、データベースのビン境界を使用します) 。 しかし、データの表示に基づいたビンのこの使用は、おそらくヌル下の検定統計量の分布に影響を与えるでしょう。 パラメーターがビン化されたデータから最尤法で推定された場合、推定されたパラメーターごとに1 dfを失うという事実に関する多くの議論を見てきました(フィッシャー対カールピアソンにさかのぼる問題)-しかし、私は覚えていませんデータに基づいてビン境界自体を見つけることについては何でも読んでください。(ビン化されていないデータからそれらを推定する場合、ビンの場合、検定統計量の分布はと間のどこかにあります。)kkkχ2kχk2\chi^2_{k}χ2k − pχk−p2\chi^2_{k-p} データに基づいたビンの選択は、有意水準または電力に実質的に影響しますか?他よりも重要なアプローチがありますか?多くの効果がある場合、それは大きなサンプルで消滅するものですか? 実質的な影響がある場合、多くの場合、パラメータが不明な場合、カイ二乗検定を使用するように思われます(多くのテキストでまだ提唱されているにもかかわらず)。 -パラメータの事前推定。 問題または参照へのポインタの議論(できればそれらの結論に言及して)が役に立つでしょう。 編集、ほとんどの主要な質問は別として: 指数関数*の特定の場合(およびユニフォームが考えるようになった場合)には潜在的な解決策があると思いますが、ビン境界を選択する影響のより一般的な問題にまだ興味があります。 *たとえば、指数関数の場合、最小の観測値(たとえばと等しい)を使用して、ビンを配置する場所の非常に大まかな考えを取得できます(最小の観測値は平均指数関数であるため)次に、指数性について残りの差()をテストします。もちろん、それは非常に貧弱な推定値、したがって貧弱なビンの選択をもたらすかもしれませんが、合理的なビンを選択するための最低の2つまたは3つの観測値を取得し、次に指数性に関するこれらの最小次数統計の最大値を超える残りの観測値)μ / N N - 1 X I - M μmmmμ / nμ/n\mu/nn − 1n−1n-1バツ私− mバツ私−mx_i - mμμ\mu

4
とF検定の関係は?
R2R2R^2とF検定の間に関係があるかどうか疑問に思っていました。 通常、R2= ∑ (Y^t−Y¯)2/T− 1∑ (Yt− Y¯)2/T− 1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}、それは、回帰における直線関係の強さを測定します。 F検定は仮説を証明するだけです。 R2R2R^2とF検定の間に関係はありますか?

3
負のR 2乗とはどういう意味ですか?
いくつかのデータがあり、そのデータをモデルに適合させたとしましょう(非線形回帰)。次に、Rの2乗(R2R2R^2)を計算します。 R-2が負の場合、それはどういう意味ですか?それは私のモデルが悪いということですか?の範囲はR2R2R^2[-1,1]になります。ときR2R2R^2平均のことだけでなく何をするか、0でありますか?

2
ピアソンの残差
適合度のカイ2乗検定のコンテキスト内でのピアソンの残差に関する初心者の質問: 検定統計量と同様に、Rのchisq.test関数はピアソンの残差を報告します。 (obs - exp) / sqrt(exp) サンプルが小さいほど差が小さくなるため、観測値と期待値の間の生の差を見ることがそれほど有益ではない理由を理解しています。しかし、分母の効果についてもっと知りたいです。なぜ期待値のルートで除算するのですか?これは「標準化された」残差ですか?

5
ANOVAの仮定の確認
数か月前に、SOのRでの同分散性テストに関する質問を投稿しましたが、Ian Fellowsが答えました(彼の答えは非常に大まかに言い換えます)。 モデルの適合度をテストするとき、同相性テストは良いツールではありません。小さなサンプルでは、​​ホモ分散性からの逸脱を検出するのに十分なパワーがありませんが、大きなサンプルでは「十分なパワー」があるため、平等からの些細な逸脱でもスクリーニングする可能性が高くなります。 彼の素晴らしい答えは私の顔に平手打ちとして来ました。以前は、ANOVAを実行するたびに、正規性と同分散性の仮定をチェックしていました。 あなたの意見では、ANOVAの仮定をチェックするときのベストプラクティスは何ですか?

2
カイ二乗適合度検定の事後検定
私は3つのカテゴリでカイ二乗適合度(GOF)テストを実施しており、具体的には各カテゴリの母集団の割合が等しい(つまり、割合が各グループの1/3である)ヌルをテストします。 観測データ グループ1 グループ2 グループ3 合計 686928 1012 2626 したがって、このGOFテストの場合、予想されるカウントは2626(1/3)= 875.333であり、テストでは<0.0001の非常に有意なp値が得られます。 現在、グループ1が2および3と大きく異なることは明らかであり、2と3が大きく異なることはほとんどありません。ただし、これらすべてを正式にテストし、各ケースにp値を提供できるようにしたい場合、適切な方法は何でしょうか? 私はオンラインで検索しましたが、意見が異なるようですが、正式な文書はありません。これに対処するテキストまたは査読済みの論文があるかどうか疑問に思っています。 どのような私には合理的と思われることは行うには、重要な全体的なテストの光の中で、あるzの可能性を修正して、割合の各ペアの差を-testsを値(多分ボンフェローニ、例えば)。αα\alpha

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.