タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

2
仮説検定と時系列の重要性
2つの母集団を調べる際の通常の有意性の検定は、可能であればt検定とペアt検定です。これは、分布が正常であることを前提としています。 時系列の有意性検定を生成する同様の単純化された仮定はありますか?具体的には、2種類のかなり小さなマウスの集団が別々に処理されており、週に1回体重を測定しています。両方のグラフはスムーズに増加する関数を表示し、1つのグラフが他のグラフの上に確実に表示されます。この文脈で「明確さ」をどのように定量化するのでしょうか? 帰無仮説は、2つの母集団の重みが時間の経過とともに「同じように振る舞う」ということです。少数のパラメーターのみでかなり一般的な(正規分布が一般的であるように)単純なモデルの観点から、これをどのように定式化できますか?それを行ったら、どのように有意性またはp値に類似した何かを測定できますか?マウスをペアリングして、可能な限り多くの特性を一致させ、各ペアが2つの母集団のそれぞれから1つの代表を持っている場合はどうでしょうか? 時系列についての、よく書かれたわかりやすい本や記事へのポインターを歓迎します。私は無知から始めます。ご協力いただきありがとうございます。 デビッド・エプスタイン

1
t検定とANOVAが2つのグループの比較で異なるp値を与えるのはなぜですか?
ANOVAに関するウィキペディアの記事では、 最も単純な形式では、ANOVAはいくつかのグループの平均が等しいかどうかの統計的検定を提供するため、t検定を3つ以上のグループに一般化します。 これについての私の理解は、ANOVAは2グループ比較に関してt検定と同じであるということです。 ただし、以下の私の簡単な例(R)では、ANOVAとt検定は似ていますが、わずかに異なるp値を与えます。誰でもその理由を説明できますか? x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(>F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(>F)`[1] # 0.8190279

2
非対称ヌル分布の両側検定のP値
私の状況は次のとおりです:モンテカルロ研究を通じて、推定パラメーターの統計的有意性について2つの異なる検定の値を比較したい(nullは「効果なし-パラメーターはゼロ」、暗黙の代替は「パラメータはゼロではありません」)。テストAは標準の「平均値の等価性に関する独立した2標本t検定」であり、nullの下で等しい分散を持ちます。 ppp テストB自分で構築しました。ここで、使用されるヌル分布は非対称の一般的な離散分布です。しかし、Rohatgi&Saleh(2001、2nd ed、p。462)で次のコメントを見つけました。 「分布が対称でない場合、多くの著者は片側の値を2倍にすることを推奨していますが、両側のケースでは値は明確に定義されていませんpppppp。」 著者は、これについてさらに議論することも、片側値を2倍にする「多くの著者の提案」についてコメントすることもしません。(これにより、「どちらの側の値を2倍にしますか?そして、なぜこの側であり、もう一方ではありませんか?」という質問が作成されます。)pppppp この問題全体について、他のコメント、意見、結果を見つけることができませんでした。非対称分布では、パラメーターの値に関して帰無仮説の周りに対称な区間を考えることができますが、確率質量配分の2番目の通常の対称性はないことを理解しています。しかし、これが値を「十分に定義されていない」ものにする理由がわかりません 。個人的には、推定量の値に対して帰無仮説の周りに対称な区間を使用することにより、定義がありませんppp「ヌル分布が、この区間の境界に等しい値またはこの区間の外側の値を生成する確率はXXです」という問題。一方の側の確率質量が他方の側の確率質量と異なるという事実は、少なくとも私の目的では、問題を引き起こすようには見えません。しかし、Rohatgi&Salehが私が知らないことを知っていることよりもむしろありそうです。 だからこれは私の質問です:ヌル分布が対称ではない両側検定の場合、値はどのような意味で「十分に定義されていない」(または定義される可能性があります)か?ppp おそらく重要な注意事項:私は漁師の精神でより多くの問題にアプローチします、私はネイマン・ピアソンの意味で厳格な決定ルールを取得しようとはしていません。推論を行うために他の情報と一緒に値の情報を使用するのは、テストのユーザーに任されています。ppp

1
H0の下でブートストラップを使用して、2つの手段の違いのテストを実行します。グループ内またはプールされたサンプル内の置換
2つの独立したグループを持つデータがあるとします。 g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

6
10代未満で10代の仮説検定を説明する方法は?
1年以上の間、私は1時間の「統計の味」クラスを提供してきました。子どもたちの異なるグループが来るたびに、私は彼らにクラスを与えます。 クラスのテーマは、コカコーラを飲むのが好きな10人の子供にコカコーラとペプシの2つの(マークのない)カップを与える実験を実行することです。子供たちは、味と香りに基づいて、どのカップにコカコーラ飲料が入っているかを検出するように求められます。 次に、子供たちが推測しているのかどうか、または(少なくとも少なくとも十分な)子供たちが違いを味わう能力を本当に持っているかどうかを判断する方法を説明する必要があります。10回の成功のうち10回で十分ですか?10のうち7はどうですか? このクラスを数十回(さまざまなバリエーションで)行った後でも、ほとんどのクラスがそれを取得する方法で概念を理解する方法がわからないと感じています。 仮説検定、帰無仮説、対立仮説、棄却域などの概念を、シンプルな(!)直感的な方法で説明する方法についてアイデアがあれば、その方法を知りたいと思います。

3
フィッシャーの正確なテストについて:女性がミルクファーストカップの数を知らなければ、どのテストが適切だっただろうか?
RA Fisherによる有名なレディテイスティングティーの実験では、ミルクファースト/ティーファーストカップの数が知らされます(8カップのうち4カップ)。これは、フィッシャーの正確検定の固定限界総仮定を尊重します。 私は友人とこのテストを行うことを想像していましたが、その考えに衝撃を受けました。女性がミルクファーストカップとティーファーストカップの違いを本当に理解できれば、ミルクファースト/ティーファーストカップの限界合計と、どのカップがどれであるかを把握できるはずです。 そこで質問は次のとおりです。RAFisherがミルクファーストカップとティーファーストカップの合計数を女性に通知していなかった場合、どのテストを使用できたでしょうか。

3
結果を「非常に重要」と呼ぶのは間違っていますか?
値が従来のレベルのはるかに下回る場合、統計学者が結果を「非常に重要」と呼ぶことを思いとどまらせるのはなぜですか?α 0.05pppαα\alpha0.050.050.05 99%()の確率しか得られない結果よりも、タイプIエラー()ではない確率が99.9%の結果を信頼することは本当に間違っていますか?p = 0.01p = 0.001p=0.001p=0.001p = 0.01p=0.01p=0.01

1
Kruskal-Wallisの後の事後検定:Dunnの検定またはBonferroniはMann-Whitneyの検定を修正しましたか?
非ガウス分布変数がいくつかあり、5つの異なるグループのこの変数の値に大きな違いがあるかどうかを確認する必要があります。 Kruskal-Wallis一元配置分散分析(重要な結果になった)を実行した後、どのグループが大幅に異なるかを確認する必要がありました。グループは一種のソートされているため(最初のグループの変数の値は、3番目のグループの変数の値よりも低いと想定される2番目のグループの変数の値よりも低いと想定されます。 on)私は4つのテストのみを実行しました: Group 1 vs Group 2 Group 2 vs Group 3 Group 3 vs Group 4 Group 4 vs Group 5 この分析は、2つの異なる方法で実行しました。私はダンの多重比較テストを使用することから始めましたが、重要なものは何もありませんでした。一方、Mann-Whitneyテストを使用し、Bonferroniを使用したテストの数(4)を修正すると、3つのテストが重要になります。 どういう意味ですか?どの結果を信頼すべきですか?

4
線形回帰の帰無仮説の変更
相関性の高いデータがいくつかあります。線形回帰を実行すると、勾配が1(= 0.93)に近い回帰直線が得られます。私がやりたいのは、この勾配が1.0と大きく異なるかどうかをテストすることです。私の期待はそうではないということです。言い換えると、線形回帰の帰無仮説をゼロの勾配から1の勾配に変更したいのです。これは賢明なアプローチですか?また、回答にRコードを含めて、このメソッド(または、より良い方法を提案する)を実装できることを本当に感謝しています。ありがとう。

2
係数間の有意差をテストする正しい方法は何ですか?
誰かが私のために混乱のポイントをまっすぐにするのを手伝ってくれることを望んでいます。次の設定で、2セットの回帰係数が互いに有意に異なるかどうかをテストしたいとします。 y私= α + βバツ私+ ϵ私yi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i、5つの独立変数。 ほぼ等しいサイズの 2つのグループ(これは異なる場合があります)n1、n2n1,n2n_1, n_2 数千の同様の回帰が同時に行われるため、何らかの種類の複数の仮説修正を行う必要があります。 私に提案されたアプローチの1つは、Zテストを使用することです。 Z= b1− b2(√SEb21+ SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} このボードで私が見た別の提案は、グループ化のためにダミー変数を導入し、モデルを次のように書き換えることです: Gy私= α + βバツ私+ δ(x私g私)+ ϵ私yi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i、ここでは0、1としてコード化されたグループ化変数です。ggg 私の質問は、これらの2つのアプローチがどのように異なるのか(たとえば、異なる前提条件、柔軟性)です。一方が他方よりも適切ですか?これはかなり基本的なことではないかと思いますが、説明をいただければ幸いです。

2
カイ2乗検定では、予想されるカウントを分散として使用するのはなぜですか?
ではテスト、正規分布のそれぞれの標準偏差(差異としてすなわち期待カウント)として期待数の平方根を使用するための根拠は何ですか?これについて議論できるのはhttp://www.physics.csbsju.edu/stats/chi-square.htmlだけであり、ポアソン分布に言及しているだけです。χ2χ2\chi^2 私の混乱の簡単な説明として、2つのプロセスが大きく異なるかどうかをテストしている場合、1つは非常に小さな変動で500 Asと500 Bを生成し、もう1つは非常に小さな分散で550 Asと450 Bを生成します551 Asおよび449 Bs)?ここでの分散は明らかに単に期待値ではありませんか? (私は統計学者ではないので、非専門家がアクセスできる答えを本当に探しています。)

3
意図した分布に対してランダムに生成されたデータをテストする
ランダムデータを生成するプログラムを作成しました。プログラムが正常に動作している場合、そのデータは特定の既知の確率分布に従う必要があります。プログラムを実行し、結果に対していくつかの計算を行い、p値を見つけたいと思います。 他の誰かがそれを言う前に:私は、仮説テストではプログラムが正しく動作していることを検出できないことを理解しています。特定の方法で正しく動作していない場合にのみ検出できます。(それでも、選択した有意水準に応じて、テストは時間のX%で「失敗」するはずです...) だから、私はどのツールが適切かを理解しようとしています。特に: 必要なだけランダムデータを生成できます。私がしなければならないことは、プログラムを十分に長く実行することです。したがって、特定のサンプルサイズに限定されません。 p値を生成する手法に興味があります。したがって、グラフをじっと見て、「はい、それは線形に見えます」と言うことは、興味深い選択肢ではありません。グラフの「不安定」にハードナンバーを付ける何らかの方法がない限り。;-) 私がこれまでに知っていること: 適用できると思われる3つの主要なテストの種類を見ました。[Pearson]カイ2乗検定、Kolmogorov-Smirnov検定、およびAnderson-Darling検定。 カイ二乗検定は離散分布に適しているように見えますが、他の2つは連続分布に適しています。(?) さまざまな情報源は、ADテストはKSテストよりも「優れている」と示唆していますが、それ以上の詳細は説明していません。 最終的に、これらのテストはすべて、指定されたヌル分布から逸脱する「異なる方法」を検出すると考えられます。しかし、私はまだ違いが何であるかを本当に知りません...要約すると、私は各タイプのテストが最も適切である場所と、それが最もよく検出する種類の問題のある種の一般的な説明を探しています。

4
とF検定の関係は?
R2R2R^2とF検定の間に関係があるかどうか疑問に思っていました。 通常、R2= ∑ (Y^t−Y¯)2/T− 1∑ (Yt− Y¯)2/T− 1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}、それは、回帰における直線関係の強さを測定します。 F検定は仮説を証明するだけです。 R2R2R^2とF検定の間に関係はありますか?

5
t統計が非常に大きいのに、なぜR二乗が非常に低いのですか?
私は4つの変数を用いて回帰を実行し、すべてがT値と、非常に統計的に有意である≈7,9,26≈7,9,26\approx 7,9,26及び313131(I言う≈≈\approx非常に高く、明らかに有意であることが小数を含むように無関係と思われるため)。しかし、R2R2R^2はわずか.2284です。ここでtの値を、それらがそうではない何かを意味すると誤解していますか?t値を見たときの私の最初の反応は、R2R2R^2がかなり高いということでしたが、多分それは高いR2R2R^2でしょうか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.