タグ付けされた質問 「t-test」

2つのサンプルの平均、または1つのサンプルの平均(またはパラメーター推定値)を指定された値と比較するためのテスト。発明者の仮名にちなんで「学生t検定」としても知られています。

4
p値を互いに比較することはどのような意味がありますか?
私には2つの集団(男性と女性)があり、それぞれにサンプルが含まれています。サンプルごとに、AとBの2つのプロパティがあります(1年生の成績平均とSATスコア)。私はAとBに別々にt検定を使用しました:両方とも2つのグループの間に大きな違いがありました。P = 0.008とし、B 、P = 0.002。100010001000p = 0.008p=0.008p=0.008p = 0.002p=0.002p=0.002 プロパティBはプロパティAよりも差別的(より重要)であると主張しても大丈夫ですか?それとも、t検定は、はいまたはいいえ(有意または有意でない)尺度であるだけですか? 更新:ここのコメントおよびウィキペディアで読んだことによると、答えは無意味なp値を下げて効果サイズを報告する必要があると思います。何かご意見は?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
-testと
背景:私は仮説テストの仕事をしている同僚にプレゼンテーションを行っており、そのほとんどをうまく理解していますが、他の人に説明するだけでなく、理解しようとする結び目で自分を縛っている側面があります。 これは私が知っていると思うことです(間違っている場合は修正してください!) 分散がわかっている場合は正常な統計、分散が不明な場合はttt分布に従う CLT(中央極限定理):サンプル平均のサンプリング分布は、十分に大きいに対してほぼ正規ですnnn(303030になる可能性があり、大きく歪んだ分布の場合は最大300300300になる可能性があります) ttt -distributionは、自由度のために通常考慮することができる&gt;30&gt;30> 30 次の場合に -testを使用します。zzz 母集団の正規分布と分散が既知(任意のサンプルサイズ) 集団正常、分散不明、(CLTによる)n&gt;30n&gt;30n>30 人口二項、、n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 次の場合に -testを使用します。ttt 母集団は正常、分散は不明、n&lt;30n&lt;30n<30 母集団または分散に関する知識はなく、ですが、サンプルデータは正常に見える/テストなどに合格しているため、母集団は正常であると見なすことができますn&lt;30n&lt;30n<30 だから私は残っています: サンプルについてと&lt; ≈ 300(?)、人口と知られている分散/不明についての知識がありません。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 だから私の質問は: サンプリング分布が非正規に見える場合、平均のサンプリング分布が正常である(つまり、CLTが作動している)と仮定できるのは(母集団の分布または分散に関する知識がない場合)です。一部のディストリビューションにはが必要であることは知っていますが、n &gt; 30の場合は常にzテストを使用すると言うリソースがあるようです...n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 よくわからない場合は、データが正常かどうかを調べます。サンプルデータが正常に見える場合、検定を使用します(母集団が正常であり、n &gt; 30であるため)。zzzn&gt;30n&gt;30n>30 不明なケースのサンプルデータが正常に見えない場合はどうですか?まだ -testまたはz -testを使用する状況がありますか、または常にノンパラメトリックテストを変換/使用することを検討していますか?CLTにより、nの値によって平均のサンプリング分布は正規に近似することがわかりますが、サンプルデータはそのnの値が何であるかを教えてくれません。サンプルデータは非正規であり、サンプル平均はnormal / tに従います。実際に平均のサンプリング分布が正規/ tであったが、それがわからなかったときに、ノンパラメトリック検定を変換/使用する場合がありますか? tttzzznnnnnntttttt

2
線形混合効果モデリングの特殊なケースとしてのペアt検定
対応のあるt検定は、一方向反復測定(または被験者内)ANOVAおよび線形混合効果モデルの特殊なケースであり、lme()関数でRのnlmeパッケージで実証できることがわかっています。以下に示すように。 #response data from 10 subjects under two conditions x1&lt;-rnorm(10) x2&lt;-1+rnorm(10) # Now create a dataframe for lme myDat &lt;- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) &lt;- c("y", "x", "subj") 次のペアのt検定を実行すると: t.test(x1, x2, paired = TRUE) 私はこの結果を得ました(ランダムジェネレータのために異なる結果が得られます): t = -2.3056, df = 9, p-value = 0.04657 …

1
サイズ1とサイズ3の2つのサンプルを比較する統計的検定はありますか?
エコロジープロジェクトの場合、私の研究室グループは、等量の池の水を含む4つのタンクに、酢を追加しました。酢を加える目的は、pHを下げることでした。仮説は、エロデアを持つタンクが通常のpHに速く戻るというものでした。確かにそうでした。各タンクのpHを約2週間毎日測定しました。最終的にすべてのタンクが元のpHに戻りましたが、これにかかる時間は、エロデアを備えたタンクの方がはるかに短かったです。 教授に実験計画について話したとき、コントロールと治療を比較するためにデータに対して実行できる統計的検定は存在しないと彼は言いました。これは、コントロールの複製がないため(コントロールタンクを1つだけ使用したため)、分散を計算できず、コントロールと処理のサンプル平均を比較できないためです。私の質問は、これは本当ですか?彼が何を意味するのか、私は間違いなく理解しています。たとえば、1人の男性と1人の女性の身長を考慮した場合、それぞれの人口について結論を出すことはできません。しかし、3回の治療を行い、分散は小さかった。コントロールの分散が似ていると仮定するのは理にかなっていますか? 更新: すばらしい答えをありがとう。湿地からより多くの水とエロデアを得て、より小さなタンクで実験を再度実行することにしましたが、今回は5つのコントロールと5つの処理を行います。これを元のデータと組み合わせるつもりでしたが、タンクの開始pHが十分に異なっていたため、元の実験と同じ母集団から新しい実験をサンプリングすることを考慮するのは妥当ではないようです。 さまざまな量のエロデアを追加し、pH修復の速度(pHが元の値に戻るまでの時間として測定される)をエロデアの量と相関させることを検討しましたが、必要ではないと判断しました。私たちの目的は、pHが異なる量のElodeaにどのように反応するかを正確に予測する何らかのモデルを構築することではなく、Elodeaが正の違いをもたらすことを示すことだけです。エロデアの最適量を決定することは興味深いでしょうが、それはおそらく生き残ることができる最大量にすぎません。データに回帰曲線を当てはめようとしても、大量に追加するとコミュニティにさまざまな複雑な変更が発生するため、特に意味がありません。エロデアは死に、分解し、新しい生物が支配し始めます。

2
2つのグループ間の違いをテストする方法は、データが正規分布していないことを意味しますか?
生物学的な詳細と実験をすべて削除し、目前の問題と統計的に行ったことを引用します。その権利があるかどうか、もしそうでない場合は、どうすればよいかを知りたい。データ(または私の説明)が十分に明確でない場合は、編集して説明を改善します。 サイズおよび 2つのグループ/観測、XおよびYがあるとします。これら2つの観測値の平均が等しいかどうかを知りたいです。私の最初の質問は:Nバツ= 215Nバツ=215N_x=215Ny= 40Ny=40N_y=40 仮定が満たされている場合、ここでパラメトリック2サンプルt検定を使用することは適切ですか?私の理解から、サイズが小さいときに通常適用されるので、これを尋ねますか? XとYの両方のヒストグラムをプロットしましたが、2標本t検定の仮定の1つである正規分布ではありませんでした。私の混乱は、それらを2つの母集団であると考え、それが正規分布を確認した理由です。しかし、その後、2つのサンプルのt検定を実行しようとしています... これは正しいですか? 中心極限定理から、サンプリング(母集団のサイズに応じて繰り返しの有無を問わず)を複数回実行し、毎回サンプルの平均を計算すると、ほぼ正規分布になることがわかります。また、このランダム変数の平均は、母平均の適切な推定値になります。そこで、XとYの両方でこれを1000回行うことにし、サンプルを取得し、各サンプルの平均にランダム変数を割り当てました。プロットは非常に正規分布していました。XとYの平均は4.2と15.8(母集団±0.15と同じ)で、分散は0.95と12.11でした。 これらは非常に異なるため(0.95と12.11)、分散が等しくないこれら2つの観測値(それぞれ1000データポイント)でt検定を実行しました。そして、帰無仮説は棄却されました。 これはまったく理にかなっていますか?これは正しい/意味のあるアプローチですか、2サンプルのz検定で十分ですか、それともまったく間違っていますか? また、念のため(元のXとYで)ノンパラメトリックウィルコクソン検定を実行しましたが、帰無仮説も同様に説得力をもって拒否されました。私の以前の方法がまったく間違っていた場合、統計的な検出力を除いて、ノンパラメトリック検定を行うのが良いと思いますか? どちらの場合も、平均は大きく異なりました。ただし、どちらかまたは両方のアプローチに問題があるか、まったく間違っているかどうかを知りたい場合はどうすればよいですか?

2
ログ変換は、非正規データをt検定するための有効な手法ですか?
著者は、論文をレビューする際に、「正規分布の前提条件を満足するためにtテストが行​​われる前に、自然対数を使用して、歪んだ分布を示す連続的な結果変数が変換された」と述べています。 これは、特に基礎となる分布が必ずしも対数正規分布ではない場合に、非正規データを分析するのに受け入れられる方法ですか? これは非常にばかげた質問かもしれませんが、これを以前に見たことはありません。

2
スチューデントのt検定はWald検定ですか?
スチューデントのt検定はWald検定ですか? Wasserman's All of StatisticsからWaldテストの説明を読みました。 Wald検定にはt検定が含まれているように思えます。あれは正しいですか?そうでない場合、t検定がWald検定ではないのはなぜですか?

3
統計的に有意になるようにデータをシミュレートする方法は?
私は10年生で、機械学習サイエンスフェアプロジェクトのデータをシミュレートしたいと考えています。最終モデルは患者データで使用され、特定の時間帯と、これが単一患者のデータ内の服薬遵守に与える影響との相関関係を予測します。順守値はバイナリになります(0は薬を服用しなかったことを意味し、1は服用したことを意味します)。私は、週の時間の関係から学習できる機械学習モデルを作成し、週を21の時間帯に分けています。1時間ごとに3つ(1は月曜日の朝、2は月曜日の午後、等。)。1,000人の患者に相当するデータをシミュレートしたいと考えています。各患者には30週間分のデータがあります。週の時間とアドヒアランスに関連する特定のトレンドを挿入したいと思います。例えば、あるデータセットでは、週の時間帯7は順守と統計的に有意な関係があると言えます。関係が統計的に有意であるかどうかを判断するには、1つのタイムスロットを他のタイムスロットと比較する2サンプルt検定を実行し、有意値が0.05未満であることを確認する必要があります。 ただし、自分のデータをシミュレートして挿入した傾向が重要かどうかを確認するのではなく、逆方向に作業して、特定のタイムスロットに重要な傾向を順守して割り当てることができるプログラムを使用すると、戻りますその中に私が求めたトレンドを含むバイナリデータ、およびノイズを含むが統計的に有意なトレンドを生成しない他のタイムスロットのバイナリデータ。 このようなことを達成するのに役立つプログラムはありますか?それとも、Pythonモジュールですか? どんな助けでも(私のプロジェクトに関する一般的なコメントでさえ)非常に感謝されます!

1
t検定とANOVAが2つのグループの比較で異なるp値を与えるのはなぜですか?
ANOVAに関するウィキペディアの記事では、 最も単純な形式では、ANOVAはいくつかのグループの平均が等しいかどうかの統計的検定を提供するため、t検定を3つ以上のグループに一般化します。 これについての私の理解は、ANOVAは2グループ比較に関してt検定と同じであるということです。 ただし、以下の私の簡単な例(R)では、ANOVAとt検定は似ていますが、わずかに異なるp値を与えます。誰でもその理由を説明できますか? x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(&gt;F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(&gt;F)`[1] # 0.8190279

3
非常に歪んだデータのt検定
私は、医療費データの数万件の観測データセットを持っています。このデータは非常に右に偏っており、多くのゼロがあります。2組の人々(この場合、それぞれ3000を超えるobsを持つ2つの年齢層)の場合、次のようになります。 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 このデータに対してウェルチのt検定を実行すると、結果が返されます。 Welch Two Sample t-test data: x and y t = -0.4777, df = 3366.488, p-value = 0.6329 alternative hypothesis: true …

2
ロジスティック回帰とt検定の力はどのように比較されますか?
ロジスティック回帰とt検定の力は同等ですか?その場合、それらは「データ密度が同等」である必要があります。つまり、固定されたアルファが.05の場合、同じ数の基礎となる観測値が同じパワーを生成します。次の2つのケースを検討してください。 [パラメトリックt検定]:二項観測から30の引き分けが行われ、結果の値が平均化されます。これは、グループA(発生の二項分布Prが.70である)に対して30回、グループB(発生の二項分布Prが.75である)で30回行われます。これにより、グループごとに30の平均が得られ、2項分布からの1,800の描画の要約を表します。58df t検定を実行して、平均を比較します。 [ロジスティック回帰]:ロジスティック回帰は、グループメンバーシップと1,800の各ドローを表すダミーのコード化された勾配で実行されます。 私の質問には2つの部分があります。 アルファ値が.05の場合、これらの方法論の力は同じですか、それとも異なりますか?どうして?どうすればそれを証明できますか? 質問1の答えは、t検定に入るサンプルサイズ、t検定の各グループのサンプルサイズ、基礎となる二項確率、またはその他の要因に敏感ですか?もしそうなら、どのようにパワーが実際に異なり、どのような変化がパワーのどのような変化を引き起こすかを(シミュレーションなしで)知ることができますか?または、シミュレーションを使用して問題を解決するRコードを作成します。


3
「検定統計量」は値またはランダム変数ですか?
私は今、最初の統計コースを受講している学生です。「テスト統計」という用語に混乱しています。 以下(一部の教科書でこれを見ました)では、は特定のサンプルから計算された特定の値であるようです。 tttt=x¯¯¯−μ0s/n−−√t=x¯−μ0s/n t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} ただし、以下では(他の教科書でこれを見ました)、はランダム変数のようです。 TTTT=X¯¯¯¯−μ0S/n−−√T=X¯−μ0S/n T=\frac{\overline{X} - \mu_0}{S / \sqrt{n}} それでは、用語「検定統計量」は特定の値またはランダム変数、あるいはその両方を意味しますか?

3
統計的有意性に関する2つの分類器の精度結果をt検定と比較する
統計的有意性について2つの分類器の精度を比較したいと思います。両方の分類器は同じデータセットで実行されます。これは、私が読んでいたものから1つのサンプルt検定を使用するべきだと思うように導きます。 例えば: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 これは使用するのに適切なテストですか?もしそうなら、分類器間の精度の差が有意であるかどうかをどのように計算しますか? または、別のテストを使用する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.