タグ付けされた質問 「chi-squared」

テスト(通常、分布、独立性、または適合度)またはそのようなテストに関連する分布のファミリー。

1
なぜ分散のサンプリング分布はカイ二乗分布なのですか?
声明 サンプル分散のサンプリング分布は、自由度が等しいカイ二乗分布です。ここで、はサンプルサイズです(対象のランダム変数が正規分布している場合)。nn−1n−1n-1nnn ソース 私の直感 1)カイ2乗検定は2乗和のように見えるため、2)カイ2乗分布は2乗正規分布の和にすぎないため、直感的に理解できます。それでも、私はそれをよく理解していません。 質問 ステートメントは本当ですか?どうして?

2
非心カイ二乗確率変数の合計
私は、確率変数の分布を見つける必要が ここで、X 、I〜N(μ I、σ 2 I)と全X I S個の独立しています。X iの関数を生成するすべてのモーメントの積を最初に見つけ、次に変換してYの分布を取得することが可能であることを知っています。しかし、Yには一般的な形式があるのだろうかY=∑i=1n(Xi)2Y=∑i=1n(Xi)2Y=\sum_{i=1}^{n}(X_i)^2Xi∼N(μi,σ2i)Xi∼N(μi,σi2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i)XiXiX_iXiXiX_iYYYYYY ガウスの場合のように:独立したガウスの合計がまだガウスであることがわかっているため、合計の平均と分散の合計を知るだけで済みます。 どのようにすべてについて?この状態は一般的な解決策になりますか?σ2i=σ2σi2=σ2\sigma^2_i=\sigma^2

3
t変量の二乗和とは何ですか?
みましょうでスチューデントのt分布からIID描かれる適度なサイズのため、自由度(100未満を言います)。定義 である有するほぼカイ二乗として配布自由度?ランダム変数の平方和の中心極限定理のようなものはありますか?、N 、N T = Σ 1 ≤ I ≤ K T 2 I T Ktitit_innnnnnT=∑1≤i≤kt2iT=∑1≤i≤kti2T = \sum_{1\le i \le k} t_i^2TTTkkk

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
統計表に記載されていない(内挿する)値を見つけるにはどうすればよいですか?
多くの場合、人々はプログラムを使用してp値を取得しますが、場合によっては-何らかの理由で、テーブルのセットから重要な値を取得する必要がある場合があります。 限られた数の有意水準と限られた数の自由度を持つ統計表が与えられた場合、他の有意水準または自由度(、カイ2乗、表など)で近似臨界値を取得する方法?tttFFF つまり、テーブル内の値の「間にある」値を見つけるにはどうすればよいですか?

4
カイ二乗距離を使用した2つのヒストグラムの比較
顔の2つの画像を比較したい。LBPヒストグラムを計算しました。そこで、これら2つのヒストグラムを比較して、これらのヒストグラムがどれだけ等しいか(0〜100%)を知る必要があります。 このタスクを解決する方法は数多くありますが、LBPメソッドの著者は、ヒストグラムの交差および対数尤度統計よりもカイ二乗距離の方がパフォーマンスが優れていることを強調しています(ローカルバイナリパターンによる顔の説明:顔認識への応用。2004)。 著者は、カイ二乗距離の式も示しています。 ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} ここで、はビンの数、は最初のビンの値、は2番目のビンの値です。x i y innnxixix_iyiyiy_i いくつかの研究(たとえば、二次-チーヒストグラム距離ファミリ)で、カイ-二乗距離の公式は次のようになっています。 12∑i = 1n(x私− y私)2(x私+ y私)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} そして、そこhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm私は、カイ二乗距離の式を参照してください。 ∑i = 1n(x私− y私)2y私∑i=1n(xi−yi)2yi \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i} 私はそれにこだわった。いくつか質問があります。 どの表現を使用すべきですか? 差異の結果をどのように解釈すればよいですか?差が0であるということは、両方のヒストグラムが等しいことを意味しますが、両方のヒストグラムがまったく異なる場合はどうすればわかりますか?カイ二乗テーブルを使用する必要がありますか?または、しきい値を使用する必要がありますか?基本的に、差をパーセントにマッピングしたいです。 これら3つの式が異なる理由

2
データベースのビン境界がカイ二乗適合度検定に及ぼす影響?
この種の状況でのカイ二乗の低電力の明らかな問題は別として、データをビニングすることにより、指定されていないパラメーターを使用して密度のカイ二乗検定を行うことを想像してください。 具体的には、平均が不明でサンプルサイズが100の指数分布であるとします。 ビンごとに合理的な数の予想観測値を取得するには、データのアカウントを取得する必要があります(たとえば、平均より下に6ビン、上に4ビンを配置することを選択した場合、データベースのビン境界を使用します) 。 しかし、データの表示に基づいたビンのこの使用は、おそらくヌル下の検定統計量の分布に影響を与えるでしょう。 パラメーターがビン化されたデータから最尤法で推定された場合、推定されたパラメーターごとに1 dfを失うという事実に関する多くの議論を見てきました(フィッシャー対カールピアソンにさかのぼる問題)-しかし、私は覚えていませんデータに基づいてビン境界自体を見つけることについては何でも読んでください。(ビン化されていないデータからそれらを推定する場合、ビンの場合、検定統計量の分布はと間のどこかにあります。)kkkχ2kχk2\chi^2_{k}χ2k − pχk−p2\chi^2_{k-p} データに基づいたビンの選択は、有意水準または電力に実質的に影響しますか?他よりも重要なアプローチがありますか?多くの効果がある場合、それは大きなサンプルで消滅するものですか? 実質的な影響がある場合、多くの場合、パラメータが不明な場合、カイ二乗検定を使用するように思われます(多くのテキストでまだ提唱されているにもかかわらず)。 -パラメータの事前推定。 問題または参照へのポインタの議論(できればそれらの結論に言及して)が役に立つでしょう。 編集、ほとんどの主要な質問は別として: 指数関数*の特定の場合(およびユニフォームが考えるようになった場合)には潜在的な解決策があると思いますが、ビン境界を選択する影響のより一般的な問題にまだ興味があります。 *たとえば、指数関数の場合、最小の観測値(たとえばと等しい)を使用して、ビンを配置する場所の非常に大まかな考えを取得できます(最小の観測値は平均指数関数であるため)次に、指数性について残りの差()をテストします。もちろん、それは非常に貧弱な推定値、したがって貧弱なビンの選択をもたらすかもしれませんが、合理的なビンを選択するための最低の2つまたは3つの観測値を取得し、次に指数性に関するこれらの最小次数統計の最大値を超える残りの観測値)μ / N N - 1 X I - M μmmmμ / nμ/n\mu/nn − 1n−1n-1バツ私− mバツ私−mx_i - mμμ\mu

1
ピアソンのカイ二乗検定の仕組み
最近の反対票に続いて、私はピアソン・カイ二乗検定の理解を確認しようとしています。通常、カイ二乗統計(またはカイ二乗減少統計)を使用して、結果の適合のフィッティングまたはチェックを行います。この場合、分散は通常、テーブルまたはヒストグラムの予想カウント数ではなく、実験的に決定された分散です。いずれにせよ、私は常にテストが多項PDFの漸近正規性を使用しているという印象を受けていました(つまり、私のテスト統計は Q = (n − Nm )⊤V− 1(n − Nm )Q=(n−Nm)⊤V−1(n−Nm)Q = (n-Nm)^\top V^{-1}(n-Nm) およびは漸近多重正規で、Vは共分散行列です)。したがって、Qには大きなnが与えられたカイ2乗分布があるため、統計の分母として期待されるカウント数を使用すると、大きなnに対して有効になります。これはヒストグラムにのみ当てはまる可能性があり、私は長年にわたって小さなデータテーブルを分析していません。(n − Nm )(n−Nm)(n-Nm)VVVQQQnnnnnn 私が見逃しているより微妙な議論はありますか?私は参考文献に興味があります、あるいはもっと簡単な説明に興味があります。(その可能性はありますが、漸近語という言葉を省略することに賛成票を投じましたが、それはかなり重要だと思います。)

2
カイ2乗検定では、予想されるカウントを分散として使用するのはなぜですか?
ではテスト、正規分布のそれぞれの標準偏差(差異としてすなわち期待カウント)として期待数の平方根を使用するための根拠は何ですか?これについて議論できるのはhttp://www.physics.csbsju.edu/stats/chi-square.htmlだけであり、ポアソン分布に言及しているだけです。χ2χ2\chi^2 私の混乱の簡単な説明として、2つのプロセスが大きく異なるかどうかをテストしている場合、1つは非常に小さな変動で500 Asと500 Bを生成し、もう1つは非常に小さな分散で550 Asと450 Bを生成します551 Asおよび449 Bs)?ここでの分散は明らかに単に期待値ではありませんか? (私は統計学者ではないので、非専門家がアクセスできる答えを本当に探しています。)

1
2つの独立したランダム変数、正規およびカイ二乗の積のpdf
XとYが独立している場合、2つの独立したランダム変数XとYの積のpdfは何ですか?Xは正規分布、Yはカイ二乗分布です。 Z = XY 場合正規分布を有する およびは、自由度が カイ二乗分布 ここで、は単位ステップ関数です。XXXX∼N(μx,σ2x)X∼N(μx,σx2)X\sim N(\mu_x,\sigma_x^2) fX(x)=1σx2π−−√e−12(x−μxσx)2fX(x)=1σx2πe−12(x−μxσx)2f_X(x)={1\over\sigma_x\sqrt{2\pi}}e^{-{1\over2}({x-\mu_x\over\sigma_x})^2}YYYkkkY∼χ2kY∼χk2Y\sim \chi_k^2 fY(y)=y(k/2)−1e−y/22k/2Γ(k2)u(y)fY(y)=y(k/2)−1e−y/22k/2Γ(k2)u(y)f_Y(y)={y^{(k/2)-1}e^{-y/2}\over{2^{k/2}\Gamma({k\over2})}}u(y)u(y)u(y)u(y) とが独立している場合、のpdfはどうなりますか?ZZZXXXYYY 解決策を見つけるための一つの方法は、場合Rohatgiのよく知られた結果(1976、141頁)を使用することである連続的なRVののジョイントPDFである及びのPDF、である fXY(x,y)fXY(x,y)f_{XY}(x,y)XXXYYYZZZfZ(z)=∫∞−∞1|y|fXY(zy,y)dyfZ(z)=∫−∞∞1|y|fXY(zy,y)dyf_Z(z) = \int_{-\infty}^{\infty}{{1\over|y|}f_{XY}({z\over y},y)dy} なぜなら、とは独立している 積分を解く問題に直面する場所。誰でもこの問題で私を助けることができます。XXXYYYfXY(x,y)=fX(x)fY(y)fXY(x,y)=fX(x)fY(y)f_{XY}(x,y)=f_X(x)f_Y(y) fZ(z)=∫∞−∞1|y|fX(zy)fY(y)dyfZ(z)=∫−∞∞1|y|fX(zy)fY(y)dyf_Z(z) = \int_{-\infty}^{\infty}{{1\over|y|}f_{X}({z\over y})f_{Y}(y)dy} fZ(z)=1σx2π−−√12k/2Γ(k2)∫∞01|y|e−12(zy−μxσx)2y(k/2)−1e−y/2dyfZ(z)=1σx2π12k/2Γ(k2)∫0∞1|y|e−12(zy−μxσx)2y(k/2)−1e−y/2dyf_Z(z) = {1\over\sigma_x\sqrt{2\pi}}{1\over{2^{k/2}\Gamma({k\over2})}}\int_{0}^{\infty}{{1\over|y|}e^{-{1\over2}({{z\over y}-\mu_x\over\sigma_x})^2} {y^{(k/2)-1}e^{-y/2}}dy} ∫∞01|y|e−12(zy−μxσx)2y(k/2)−1e−y/2dy∫0∞1|y|e−12(zy−μxσx)2y(k/2)−1e−y/2dy\int_{0}^{\infty}{{1\over|y|}e^{-{1\over2}({{z\over y}-\mu_x\over\sigma_x})^2} {y^{(k/2)-1}e^{-y/2}}dy} これを解決する代替方法はありますか?

2
分割表:実行するテストとタイミング
私は、古くからのカイ二乗対フィッシャーの正確なテストの議論に関するこの議論の延長を見て、少し範囲を広げたいと思っています。分割表には相互作用のテストが数多くあり、頭を回転させるのに十分です。私は、どのテストをいつ使用するべきか、そしてもちろん、あるテストが別のテストよりも優先される理由についての説明を取得したいと思っています。 私の現在の問題は、古典的な場合ですが、Rでさまざまなソリューションを実装するためのヒントと同様に、次元の高さに関する回答は大歓迎です。n×mn×mn \times m 以下に、私が知っているすべてのテストをリストしました。エラーを公開することで修正できることを願っています。 χ2χ2\chi^2。古いスタンバイ。ここには3つの主要なオプションがあります。 2x2テーブルのRに組み込まれた修正:「すべての差から半分が差し引かれます。」私はいつもこれをやるべきですか?|O−E||O−E||O-E| " "テスト、Rでこれを行う方法がわからないN−1N−1N-1χ2χ2\chi^2 モンテカルロシミュレーション。これは常に最高ですか?これを行うとRがdfをくれないのはなぜですか? フィッシャーの正確検定。 従来、セルが4未満になると予想されていましたが、このアドバイスに異論があるようです。 辺縁が固定されているという(通常は誤った)仮定は、本当にこのテストの最大の問題ですか? バーナードの正確検定 別の正確なテスト、私はそれを聞いたことがないことを除いて。 ポアソン回帰 glmsについて私を常に混乱させる1つのことは、この重要性テストを正確に行う方法です。ネストされたモデルの比較を行うのが最善ですか?特定の予測子のWaldテストはどうですか? 本当に常にポアソン回帰を行うべきですか?これとテストの実際の違いは何ですか?χ2χ2\chi^2

2
ピアソンの残差
適合度のカイ2乗検定のコンテキスト内でのピアソンの残差に関する初心者の質問: 検定統計量と同様に、Rのchisq.test関数はピアソンの残差を報告します。 (obs - exp) / sqrt(exp) サンプルが小さいほど差が小さくなるため、観測値と期待値の間の生の差を見ることがそれほど有益ではない理由を理解しています。しかし、分母の効果についてもっと知りたいです。なぜ期待値のルートで除算するのですか?これは「標準化された」残差ですか?

2
カイ二乗適合度検定の事後検定
私は3つのカテゴリでカイ二乗適合度(GOF)テストを実施しており、具体的には各カテゴリの母集団の割合が等しい(つまり、割合が各グループの1/3である)ヌルをテストします。 観測データ グループ1 グループ2 グループ3 合計 686928 1012 2626 したがって、このGOFテストの場合、予想されるカウントは2626(1/3)= 875.333であり、テストでは<0.0001の非常に有意なp値が得られます。 現在、グループ1が2および3と大きく異なることは明らかであり、2と3が大きく異なることはほとんどありません。ただし、これらすべてを正式にテストし、各ケースにp値を提供できるようにしたい場合、適切な方法は何でしょうか? 私はオンラインで検索しましたが、意見が異なるようですが、正式な文書はありません。これに対処するテキストまたは査読済みの論文があるかどうか疑問に思っています。 どのような私には合理的と思われることは行うには、重要な全体的なテストの光の中で、あるzの可能性を修正して、割合の各ペアの差を-testsを値(多分ボンフェローニ、例えば)。αα\alpha

3
単純なカイ二乗検定の代わりとしてglm()を使用する
glm()R を使用して帰無仮説を変更することに興味があります。 例えば: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) という仮説をテストします。nullを =何らかの任意の値に変更したい場合はどうすればよいですか? p=0.5p=0.5p = 0.5pppglm() これはprop.test()and でも実行できることはわかっていますが、カテゴリデータに関連するすべての仮説をテストchisq.test()するために使用glm()するアイデアを探求したいと思います。

1
どのレベルでテストは検定のプロポーションと数学的に同じですか?
背景:安全にスキップ-それは参照のため、そして質問を正当化するためにここにあります。 この論文の冒頭には次のように書かれています。 「カールピアソンの有名なカイ2乗偶発性検定は、正規分布に基づくz統計と呼ばれる別の統計から導出されます。の最も単純なバージョンは、同等のz検定と数学的に同一であることがわかります。すべての意図と目的において、「chi-squared」は「z-squared」と呼ばれます。1自由度の臨界値は、zの対応する臨界値の2乗です。χ2χ2\chi^2χ2χ2\chi^2 これはCVで複数回アサートされています(here、here、here、その他)。 そして確かに、はと同等であることを証明できます。χ21dfχ1df2\chi^2_{1\,df}X2X2X^2X∼N(0,1)X∼N(0,1)X\sim N(0,1) レッツ言うとそのとの密度見つけ使用して方法を:X∼N(0,1)X∼N(0,1)X \sim N(0,1)Y=X2Y=X2Y=X^2YYYcdfcdfcdf p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})。問題は、正規分布の密度を密接な形で統合できないことです。しかし、私たちはそれを表現することができます: FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).デリバティブを取る: fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. 通常のpdfの値pdfpdfpdfは対称であるため: fX(y)=F′X(y√)1y√fX(y)=FX′(y)1y f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}。これを等しくするpdfpdfpdf(現在は通常のxxxでpdfpdfpdfあろうy√y\sqrt{y}に差し込まれるべきe−x22e−x22e^{-\frac{x^2}{2}}正常の一部pdfpdfpdf)。そして中に思い出すことが挙げられる1y√1y\frac{1}{\sqrt{y}}終わりには: fX(y)=F′X(y√)1y√=12π−−√e−y21y√=12π−−√e−y2y12−1fX(y)=FX′(y)1y=12πe−y21y=12πe−y2y12−1 f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1} カイ二乗のpdfと比較してください: fX(x)=12ν/2Γ(ν2)e−x2xν2−1fX(x)=12ν/2Γ(ν2)e−x2xν2−1 f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1} ので、のために DF、我々は正確に導出したカイ二乗を。 1つのpdはFΓ(1/2)=π−−√Γ(1/2)=π\Gamma(1/2)=\sqrt{\pi}111pdfpdfpdf さらに、prop.test()Rで関数を呼び出すと、を決定する場合と同じテストを呼び出します。χ2χ2\chi^2chisq.test() 質問: …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.