統計とビッグデータ hypothesis-testing

3

いくつかの（すべてではないにしても）パラメトリック仮説検定がランダムサンプリングを前提としているのはなぜですか？

Z、tなどのテストでは、データがランダムサンプリングに基づいていることを前提としています。どうして？私は実験的な研究を行っていると仮定します。そこでは、外部の妥当性よりも内部の妥当性を重視しています。したがって、母集団全体の仮説を推測しないことを受け入れたので、私のサンプルに少し偏りがあるかもしれません。また、グループ化はランダムに行われます。つまり、サンプルの参加者を便宜上選択しますが、異なるグループにランダムに割り当てます。なぜこの仮定を無視できないのですか？

12 hypothesis-testing sampling parametric randomness

5

実験を開始する前にサンプルサイズを決定するか、実験を無期限に実行しますか？

私は何年も前に統計を勉強しましたが、すべてを忘れてしまったので、これらは特定のものよりも一般的な概念的な質問のように思えるかもしれませんが、ここに私の問題があります。私はUXデザイナーとしてeコマースのウェブサイトで働いています。数年前に構築されたA / Bテストフレームワークがあり、それを疑い始めています。すべての決定を下すメトリックはコンバージョンと呼ばれ、サイトにアクセスして最終的に何かを購入するユーザーの割合に基づいています。そこで、[購入]ボタンの色を緑から青に変更するテストを行います。コントロールは既に持っているもので、平均コンバージョン率がわかる緑色のボタンです。実験では、緑色のボタンを青色のボタンに置き換えています。 95％の有意性が満足のいく信頼レベルであることに同意し、実験をオンにして、実行したままにします。ユーザーがサイトにアクセスすると、舞台裏で50/50の確率でコントロールバージョン（緑色のボタン）と実験バージョン（青いボタン）に送信されます。 7日後の実験を見ると、サンプルサイズが3000（1500が対照に、1500が実験に）、統計的有意性が99.2％の実験に有利な変換で10.2％の増加が見られます。素晴らしいと思います。実験が続行され、サンプルサイズが大きくなると、コンバージョンが+ 9％増加し、98.1％の有意性が見られます。OK、実験をもっと長く続けると、実験では統計的有意性がわずか92％でコンバージョンが5％増加するだけで、フレームワークは95％の有意性に達する前に4600個のサンプルが必要だと言っています。実験はどの時点で決定的ですか？事前にサンプルサイズに同意し、実験を完了すると、あらゆるメトリックが99％の重要性に10％改善するという臨床試験プロセスを考えると、その薬は市場に出るという決定が下されます。しかし、もし4000人を対象に実験を行い、どんな指標でも5％改善し、わずか92％の有意性が見られた場合、その薬は市場に出ることはできません。事前にサンプルサイズに同意し、そのサンプルサイズに達したら停止して、実験をオフにする時点で有意性が99％だった場合に結果に満足する必要がありますか？

12 hypothesis-testing sample-size sequential-analysis

2

選択した偽陽性/偽陰性のエラー率と基礎となるコスト比を厳密に正当化する方法は？

環境社会科学者と統計学者のグループ（Benjamin et al。、2017）は、最近、「統計的有意性」を決定するためのしきい値として使用される典型的な偽陽性率（ = .05）をより保守的なしきい値（α = .005）。競合する社会科学者と統計学者のグループ（Lakens et al。、2018）が回答し、これまたはその他の任意の閾値の使用に反対しました。以下は、レーケンズらからの引用です。（p。16）それは私の質問の主題を例示するのに役立ちます：αα\alphaαα\alpha 理想的には、アルファレベルは、決定理論を使用して効用関数に対してコストと利点を比較することによって決定されます。この費用便益分析（およびアルファレベル）は、入手が困難なサンプルからデータを収集する場合と比較して、大きな既存のデータセットを分析する場合に異なります。科学は多様であり、使用することを決定したアルファレベルを正当化するのは科学者次第です。...研究は、ヒューリスティックおよび任意の包括的しきい値ではなく、厳密な科学の原則に基づいて行う必要があります。質問 Lakens et al。のように、選択されたアルファを「厳密な科学の原則に導かれる」方法で正当化する方法を考えているのです。ほとんどの社会科学の文脈（つまり、最適化するために利益などのより具体的な品質がある特定のケース以外）で提案しますか？ Lakensらの普及に続いて、私は研究者がこの決定を下すのを助けるためにオンライン計算機が循環しているのを見始めました。それらを使用する場合、研究者は偽陽性と偽陰性のエラーの「コスト比」を指定する必要があります。ただし、この計算機が示唆しているように、このようなコスト比率の決定には、多くの定量的な推測作業が含まれます。いくつかのエラーコストは金銭的に簡単に定量化できます（直接コスト）が、他のエラーコストを1ドル（間接コスト）にすることは困難です。...定量化するのは困難ですが、それらに数字を付ける努力をする必要があります。たとえば、レイケンズなど。アルファを正当化する際に考慮する可能性のある要因として到達困難なサンプルを検討することを提案しますが、そのサンプルがどれだけ到達困難であるかを推測し、それによってアルファの選択をそれに応じて調整する方法を推測しているようです。別の例として、誤った推論を前提とする研究の追求に他の人が後でどれだけの時間/お金を費やすかという観点から、偽陽性の公開のコストを定量化することは私には難しいように思われます。このコスト比の決定が主に主観的な最善の推測の問題である場合、これらの決定が（再び、利益のようなものの最適化以外で）「正当化」できるかどうか疑問に思っています。つまり、サンプリング、トレードオフ、影響などについて行われた仮定の外に存在する方法で？このように、偽陽性/偽陰性エラーのコスト比を決定することは、ベイジアン推論で事前分布を選択することに似ているように思われます。 -合理的な比較かどうかはわかりませんが。概要私の質問を具体的にするには：偽陽性/偽陰性率とそのコスト比は、ほとんどの社会科学の文脈で「厳密に」正当化されることはありますか？もしそうなら、これらの分析の選択を正当化するために従うことができる一般化可能な原則は何ですか（そしておそらくそれらのうちの1つまたは2つの例）そうでない場合、コスト比を選択する際の潜在的な主観性（ベイジアンの事前選択に似ている）の私の類推は合理的なものですか？参照資料 Benjamin、DJ、Berger、J.、Johannesson、M.、Nosek、BA、Wagenmakers、E。、... Johnson、V.（2017年7月22日）。統計的有意性を再定義します。psyarxiv.com/mky9jから取得 Lakens、D.、Adolfi、FG、Albers、CJ、Anvari、F.、Apps、MA、... Zwaan、RA（2018、January 15）。あなたのアルファを正当化します。psyarxiv.com/9s3y6から取得

12 hypothesis-testing p-value power type-i-and-ii-errors

2

Kaggleコンペティションは偶然に勝っただけですか？

Kaggleコンペティションでは、実施済みのテストセットに基づいて最終ランキングを決定します。保留テストセットはサンプルです。モデル化されている母集団を代表していない場合があります。各提出は仮説のようなものであるため、競争に勝ったアルゴリズムは、偶然にも、他のアルゴリズムよりもテストセットによく一致する可能性があります。つまり、別のテストセットが選択され、競争が繰り返された場合、ランキングは同じままになりますか？スポンサー企業にとって、これは実際には重要ではありません（おそらく、上位20件のサブミッションがベースラインを改善するでしょう）。皮肉なことに、彼らはより悪い最初のランクのモデルを使用することになりますは他のトップ5よりもなります。しかし、競争の参加者にとって、Kaggleは最終的にはチャンスのゲームだと思われます。正しいソリューションにつまずくために運は必要ありません。テストセットに一致するものにつまずく必要があります。統計的に区別できない上位チームがすべて勝つように競争を変更することは可能ですか？または、このグループで、最もpar約的または計算的に安価なモデルが勝つことができましたか？

12 machine-learning probability hypothesis-testing sample kaggle

1

収束速度が速いため、という仮説検定にを使用しますか？

私が持っていると仮定し IIDされていると私は、という仮説のテストをしたい 0が、私は大きなNを持っており、中心極限定理を使用することができるとしています。私はまた、テストを行うことができその試験と同等であるべきである0である、 0またある、収束をカイ二乗、ここには法線に収束します。のでより速い収束率を持って、私は、検定統計量のためにすることを使用してはならないので、私はより速い収束率を取得し、テストをより効率的になりますか？X1,…,XnX1,…,XnX_1,\ldots,X_nμμ\muμ2μ2\mu^2μμ\mun(X¯2−0)n(X¯2−0)n(\bar{X}^2 - 0)n−−√(X¯−0)n(X¯−0)\sqrt{n}(\bar{X} - 0)X¯2X¯2\bar{X}^2 私はこの論理が間違っていることを知っていますが、私は長い間考え、検索してきましたが、理由を理解することはできません。

12 hypothesis-testing convergence delta-method

1

GBMパッケージとGBMを使用したキャレット

私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5％の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。私の質問は次のとおりです。 1）これらの2つのパッケージは同じであっても違いがあるのはなぜですか（確率的ですが、5％がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの）。 2）両方のパッケージを使用する利点または欠点はありますか？ 3）無関係：irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

12 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

2サンプルの比率検定にlmを使用する

私はしばらくの間、線形モデルを使用して2サンプルの比率テストを実行していましたが、完全に正しいとは限りません。一般化線形モデルと二項族+同一性リンクを使用すると、プールされていない2サンプル比率検定結果が正確に得られるようです。ただし、線形モデル（またはガウスファミリのglm）を使用すると、わずかに異なる結果が得られます。これは、Rが2項対ガウスの家族のglmをどのように解くかによるのかもしれませんが、別の原因があるのでしょうか？ ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) set.seed(12345) ## set up dataframe ------------------------- n_A <- 5000 n_B <- 5000 outcome <- rbinom( n = n_A + n_B, …

12 r hypothesis-testing generalized-linear-model proportion

1

ロジスティック回帰の適合度検定。どの「適合」をテストしますか？

私は質問とその答えに言及しています：ロジスティック回帰から開発されたモデルの予測能力を比較する方法（確率）？@Clark Chong、@ Frank Harrellによる回答/コメント。そして、Hosmer-Lemeshowテストとコメントの自由度χ2χ2\chi^2の質問に。私は紙の読み持っDWホズマー、T.ホズマー、S.ルCessie、S. Lemeshow、「ロジスティック回帰モデルの適合度検定の比較」、医学、巻で統計を。16、965-980（1997）。読んだ後、私が言及した質問が「（確率）予測能力」を明示的に求めているので混乱しました。これは、私の意見では、上記の論文の適合度テストの目的と同じではありません。ほとんどの人が知っているように、ロジスティック回帰は説明変数と成功の確率の間のS字型のリンクを想定しています。S字型の関数型は P（y= 1 |バツ私）= 11 + e− （β0+ ∑私β私バツ私）P（y=1|バツ私）=11+e−（β0+∑私β私バツ私）P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} Hosmer-Lemeshow検定に欠点がないというふりをせずに、（a）'（確率）予測能力 'と（b） ' 適合度 'の検定を区別する必要があると思います。前者の目標は、確率が十分に予測されているかどうかをテストすることです。一方、適合度テストは、上記のS字型関数が「正しい」関数であるかどうかをテストします。より正式には：「確率予測能力テスト」のテストには、成功確率がモデルによって十分に予測されていることを示すがあります。H0H0H_0 一方、適合度テストでは、は（上記のHosmer et al。を参照）S字型の関数型が正しいものです。ホスマー等。ヌルからの2種類の偏差、つまりリンク関数が間違っていること、または分母の指数が線形でないことを検出する能力を見つけるシミュレーションを実行します。H0H0H_0 明らかに、上記の関数が「正しい」関数形式を持っている場合（したがって、適合度テストのためにを受け入れることができるとテストが結論付けた場合）、予測される確率は良好です...H0H0H_0 最初の発言 ...しかし、を受け入れることは、帰無仮説を棄却できない場合に続くことで説明されているように、弱い結論です。。H0H0H_0 最初の質問私が持っている最も重要な質問/発言は、適合度が拒否された場合、テストの結論は機能的形式が「正しい」ものではなかったということですが、これは確率がよく予測されていない？H0H0H_0 二番目の質問さらに、Hosmer et。al。の結論を指摘したい。al; （要約から引用）： ''正しいモデルには2次項があり、線形項のみを含むモデルが適合している場合のテストのパフォーマンスの検査は、ピアソンカイ2乗、重み付けされていない2乗和、Hosmer-Lemeshow十分位リスクの平滑化された残差平方和とStukelのスコアテストは、サンプルサイズが100のときに線形性から中程度の逸脱を検出するために50％を超える検出力を持ち、サイズ500のサンプルのこれらの同じ代替に対して90％を超える検出力を持ちます。正しいモデルに2項共変量と連続共変量の相互作用がある場合、すべてのテストには力がありませんでしたが、連続共変量モデルのみが適合しました。誤って指定されたリンクを検出する能力は、サイズ100のサンプルでは不十分でした。サイズ500のサンプルでは、Stukel ' sスコアテストは最高の性能を発揮しましたが、非対称リンク機能を検出するには50％を超えていました。誤って指定されたリンク関数を検出するための重みなし二乗和テストの能力は、Stukelのスコアテストよりもわずかに低かった '' このことから、どのテストがより強力であるか、またはHosmer-Lemeshowの方が（これらの特定の異常を検出するために）より少ないと結論付けることができますか？第二の発言 Hosmer et。による論文 al。前述のように、特定の異常を検出するために電力を計算（シミュレーション）します（電力はが指定されている場合にのみ計算できます）。これは、これらの結果を「すべての可能な代替案」に一般化できることを意味するものではありません。H1H1H_1H1H1H_1

12 hypothesis-testing logistic predictive-models regression-strategies hosmer-lemeshow-test

1

「仮説検定」と「モデル選択」の違いは何ですか？

文献では、両方の用語はしばしば同義語または織り交ぜられています。現在、両方の用語の明確な区別を見つけようとしています。私の観点から、仮説は通常モデルを介して表現されます。したがって、帰無仮説と対立仮説をテストしたとしても、私の観点からはモデル選択を行っています。誰かがこの区別を直感的に説明してもらえますか？

12 hypothesis-testing model-selection regression-strategies

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

なぜこの分布は均一なのですか？

私たちはベイジアン統計検定を調査していますが、奇妙な（少なくとも私にとって）現象に出くわします。次の場合を考えてみましょう。AまたはBのどちらの母集団のコンバージョン率が高いかを測定することに関心があります。健全性チェックでは、を設定しpA=pBpA=pBp_A = p_Bます。つまり、変換の確率は両方のグループで等しくなります。二項モデルを使用して人工データを生成しnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 次に、ベイジアンベータ二項モデルを使用してを推定し、各変換レートの事後確率を取得します。たとえば、pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 検定統計量は経由でを計算して計算されます。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 私が驚いたのは、場合、です。私は、サンプルサイズNが大きくなると、0.5を中心に0.5に収束し、さらには0.5に収束すると考えていました。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 私の質問は、 p_A = p_BのときにS \ sim \ text {Uniform（0,1）} なのはなぜですか？S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B デモするPythonコードを次に示します。 %pylab from …

12 hypothesis-testing bayesian binomial python beta-distribution

1

ブートストラップテストを実行して2つのサンプルの平均を比較する方法

2つの大きく歪んだサンプルがあり、t統計を使用して平均を比較するためにブートストラップを使用しようとしています。それを行う正しい手順は何ですか？私が使用しているプロセスこれが正規分布ではないことがわかっている場合、最終ステップで元のデータまたは観測されたデータの標準誤差を使用することの妥当性を心配しています。私の手順は次のとおりです。ブートストラップ-交換でランダムにサンプリング（N = 1000）各ブートストラップのt統計を計算してt分布を作成します： T（b ）= （X¯¯¯¯b 1− X¯¯¯¯b 2）− （X¯¯¯¯1− X¯¯¯¯2）σ2x b 1/ n+ σ2x b 2/ n−−−−−−−−−−−−−√T（b）=（バツ¯b1−バツ¯b2）−（バツ¯1−バツ¯2）σバツb12/n+σバツb22/n T(b) = \frac{(\overline{X}_{b1}-\overline{X}_{b2})-(\overline{X}_1-\overline{X}_2) }{\sqrt{ \sigma^2_{xb1}/n + \sigma^2_{xb2}/n }} t 分布のおよびパーセンタイルを取得してt信頼区間を推定するα / 2α/2\alpha/21 - α / 21−α/21-\alpha/2 信頼区間を取得するには： C私L= （X¯¯¯¯1− X¯¯¯¯2）− T_ C私L。SEO R I GI N …

12 hypothesis-testing t-test bootstrap

1

検定統計量の分布がバイモーダルの場合、p値は何か意味がありますか？

P値は、帰無仮説が真であると仮定して、少なくとも観察されるものと同じくらい極端な検定統計量を取得する確率として定義されます。言い換えると、しかし、どのような検定統計量は分布の二峰性である場合には？p値はこの文脈で何かを意味しますか？たとえば、Rでいくつかのバイモーダルデータをシミュレートします。P(X≥t|H0)P(X≥t|H0)P( X \ge t | H_0 ) set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) そして、60の検定統計値を観察すると仮定しましょう。そして、ここで、この値が非常にありそうもないことを写真から知っています。理想的には、これを明らかにするために使用する統計手順（たとえば、p値）が必要です。しかし、定義どおりにp値を計算すると、かなり高いp値が得られます observed <- 60 # Get P-value sum(bimodal[bimodal >= 60])/sum(bimodal) [1] 0.7991993 分布を知らなかった場合、私が観察したのは単に偶然によるものであると結論付けます。しかし、これは真実ではないことがわかっています。私が持っている疑問は、p値を計算するときに、観測された値と少なくとも同じくらいの値の確率を計算するのはなぜでしょうか？そして、上記でシミュレートしたような状況に遭遇した場合、代替ソリューションは何ですか？

12 hypothesis-testing statistical-significance p-value descriptive-statistics bimodal

1

ガウス線形モデルのF検定が最も強力なのはなぜですか？

線形モデルガウス用μは、いくつかのベクトル空間にあると仮定されると標準正規分布で有するの統計のための検定ここで、はベクトル空間であり、逸脱統計量の増加する1対1関数です： f = \ phi \ left（2 \ log \ frac {\ sup _ {\ mu \ in W、\ sigma> 0} L（\ mu、\ sigma | y）} {\ sup _ {\ mu \ in U、\ sigma> 0} L（\ mu、\ sigma | y）} \ right）。この統計がH_0の最も強力なテストを提供することをどのようにして知ることができますかY=μ+σGY=μ+σGY=\mu+\sigma Gμμ\muG R N F H 0：{ …

12 hypothesis-testing normal-distribution linear-model power likelihood-ratio

2

独立性テストでカイ二乗分布が使用されるのはなぜですか？

χ2χ2\chi^2適合度検定は、次の使用統計： χ20=∑i=1n(Oi−Ei)2Eiχ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} 試験では、条件が満たされていることを許可する、一つは使用χ2χ2\chi^2-分布を与えていることp値を計算するためにH0H0H_0真の一つは同じ大きさの代表的な試料中のこのような値を観察することになるです。しかし、統計のために、χ20χ02\chi_0^2従うχ2χ2\chi^2 -distributionを（とn−1n−1n-1：自由度）、事実である必要があり独立した標準の標準Zi（ウィキペディア）。テストの条件は次のとおりです（再び、Wikipediaから）。∑i=1n(Oi−Ei)2Ei=∑i=1n−1Z2i∑i=1n(Oi−Ei)2Ei=∑i=1n−1Zi2 \sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i}=\sum_{i=1}^{n-1}Z_i^2 ZiZiZ_i 母集団のサンプル代表大きなサンプルサイズ予想される細胞数が十分に多い各カテゴリー間の独立性条件（1,2）から、サンプルから母集団への推論の条件を満たすことが明らかです。（3）分母にある離散カウントは各Z iに対してほぼ連続的な分布をもたらさず、十分に大きくなければ修正できるエラーがあるため、必要な仮定のようですイェーツ補正 -これはによってシフトので、連続的なものを『床の』離散分布は基本的であるという事実からであると思われる1 / 2それぞれについてはこれを補正します。EiEiE_iZiZiZ_i1/21/21/2 （4）の必要性は後で役立つように思えますが、どのように見えるかわかりません。最初は、は、統計が分布と一致するために必要です。疑わしい前提にこのリード私をそのOI-EI〜N（0、√Zi=Oi−EiEi√Zi=Oi−EiEiZ_i=\frac{O_i-E_i}{\sqrt{E_i}}、これは実際に間違っていました。実際、等式の2辺のnからn−1への次元の縮小から、これが当てはまらないことは明らかです。Oi−Ei∼N(0,Ei−−√)Oi−Ei∼N(0,Ei)O_i-E_i\sim \mathcal{N}(0, \sqrt{E_i})nnnn−1n−1n-1 whuberの説明のおかげで、は各O i − E iに等しい必要はないことが明らかになりました。ZiZiZ_i用語ためχ20=ΣN-1私=1Z2I標準正規確率変数（注合計変数の数の減少）をZIである機能的に独立しました。Oi−EiEi√Oi−EiEi\frac{O_i-E_i}{\sqrt{E_i}}χ20=∑n−1i=1Z2iχ02=∑i=1n−1Zi2\chi_0^2=\sum_{i=1}^{n-1}Z_i^2ZiZiZ_i 私の質問は、それから、できる方法である続くχ 2分布を？各（O i − E i ）2のどのような組み合わせχ20χ02\chi_0^2χ2χ2\chi^2項は、2乗標準法線Z 2 iになりますか？これには、明らかにCLTを使用する必要があります（それは理にかなっていますが）。言い換えれば、各Ziは何と等しい（またはほぼ等しい）のでしょうか？(Oi−Ei)2Ei(Oi−Ei)2Ei\frac{(O_i-E_i)^2}{E_i}Z2iZi2Z_i^2ZiZiZ_i

12 hypothesis-testing chi-squared

タグ付けされた質問 「hypothesis-testing」

タグ付けされた質問「hypothesis-testing」