タグ付けされた質問 「t-test」

2つのサンプルの平均、または1つのサンプルの平均(またはパラメーター推定値)を指定された値と比較するためのテスト。発明者の仮名にちなんで「学生t検定」としても知られています。

4
平均のロバストt検定
ランダム変数に対して、軽度から中程度のスキューとランダム変数の尖度の影響を受けるローカル代替に対して、ヌルをテストしようとしています。「ロバスト推定と仮説検定入門」でのウィルコックスの提案に従って、トリミングされた平均値、中央値、および位置のM推定量(Wilcoxの「ワンステップ」手順)に基づいた検定を見てきました。これらの堅牢なテストは、歪んでいないがレプトクルティックな分布でテストする場合、パワーの点で標準のt検定よりも優れています。E [ X ] > 0 XE[ X] = 0E[X]=0E[X] = 0E[ X] > 0E[X]>0E[X] > 0バツXX ただし、偏った分布でテストする場合、これらの片側検定は、分布が左スキューであるか右スキューであるかに応じて、帰無仮説の下で非常にリベラルまたは保守的すぎます。たとえば、観測値が1000の場合、中央値に基づくテストでは、実際には、公称5%レベルで、時間の約40%が拒否されます。この理由は明らかです。歪んだ分布では、中央値と平均値はかなり異なります。しかし、私のアプリケーションでは、中央値ではなく、平均値をテストする必要があります。 平均を実際にテストするt検定のより堅牢なバージョンはありますが、スキューと尖度の影響を受けませんか? 理想的には、この手順は、スキューのない、尖度の高いケースでもうまく機能します。「1ステップ」テストはほぼ十分で、「bend」パラメーターは比較的高く設定されていますが、スキューがない場合のトリム平均テストよりも強力ではなく、スキュー下のリジェクトの公称レベルを維持するのに問題があります。 背景:中央値ではなく平均値を本当に気にする理由は、テストが金融アプリケーションで使用されるからです。たとえば、ポートフォリオに正の期待対数収益があるかどうかをテストする場合、ポートフォリオに投資すると、すべての収益(平均サンプル数)が発生するため、平均は実際に適切です中央値の重複。つまり、私は本当にRVからのドローの合計に関心があります。n XnnnnnnバツXX

2
線形回帰のt検定について
私は線形回帰でいくつかの仮説検定を実行する方法を考えています(null仮説は相関関係なし)。私が遭遇した主題に関するすべてのガイドとページは、t検定を使用しているようです。しかし、線形回帰のt検定が実際に何を意味するのか理解できません。t検定は、2つの母集団を比較するために、完全に間違った理解または精神モデルがない限り使用されます。しかし、リグレッサーとリグレッサンドは類似した母集団のサンプルではなく、同じユニットでさえないかもしれないので、それらを比較することは意味がありません。 それでは、線形回帰でt検定を使用する場合、実際に何をしているのでしょうか?

3
ロジスティック回帰またはT検定?
人のグループが1つの質問に答えます。答えは「はい」または「いいえ」です。研究者は、年齢が回答のタイプに関連しているかどうかを知りたいと考えています。 この関係は、年齢が説明変数であり、回答のタイプ(yes、no)が従属変数であるロジスティック回帰を行うことにより評価されました。それぞれ「はい」および「いいえ」と答えたグループの平均年齢を計算し、平均を比較するためにT検定を実施することにより、個別に対処しました。 両方のテストは異なる人のアドバイスに従って実行されましたが、どちらも正しい方法であるかどうかはわかりません。研究の質問を考慮して、より良いテストはどれですか? 仮説検定では、p値は有意(回帰)および有意(T検定)ではありませんでした。サンプルは20ケース未満です。

8
対応のないt検定の最小サンプルサイズ
t検定を有効にするために必要な最小サンプルサイズを決定する「ルール」はありますか? たとえば、2つの母集団の平均間で比較を実行する必要があります。一方の母集団には7つのデータポイントがあり、もう一方の母集団には2つのデータポイントしかありません。残念ながら、実験は非常に高価で時間がかかり、より多くのデータを取得することは現実的ではありません。 T検定を使用できますか?なぜですか?詳細を入力してください(母集団の分散と分布は不明です)。T検定を使用できない場合、ノンパラメトリック検定(Mann Whitney)を使用できますか?なぜですか?

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
非常に歪んだデータでt検定を使用する必要がありますか?科学的証拠をお願いします?
ユーザーの参加(例:投稿数)に関する、非常に歪んだ(指数分布のように見える)データセットのサンプルがあり、サイズが異なる(ただし200以上)ので、平均を比較したいと思います。そのために、2つのサンプルの対応のないt検定を使用しています(サンプルの分散が異なる場合は、ウェルチ係数を使用したt検定)。私が聞いたように、本当に大きなサンプルの場合、サンプルが正規分布していないことは問題ではありません。 私がやったことを検討している人が、私が使用しているテストは私のデータには適さないと言った。彼らは、t検定を使用する前に私のサンプルをログ変換することを提案しました。 私は初心者なので、研究の質問に「参加指標のログ」で答えるのは本当に混乱しているように思えます。 彼らは間違っていますか?私が間違っている?それらが間違っている場合、私がそれらを引用/表示できる本または科学論文はありますか?私が間違っている場合、どのテストを使用する必要がありますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 


2
不等分散のt検定における非整数の自由度の説明
SPSS t-Testプロシージャは、2つの独立した平均を比較するときに2つの分析を報告します。1つの分析は等分散を仮定し、もう1つは等分散を仮定しません。等しい分散が仮定される場合の自由度(df)は、常に整数値(およびn-2に等しい)です。等分散が仮定されていない場合のdfは非整数(11.467など)であり、n-2の近くにはありません。これらの非整数dfの計算に使用されるロジックと方法の説明を求めています。

2
ウェルチt検定の自由度の報告
不等分散(Welch-SatterthwaiteまたはWelch-Aspinとも呼ばれます)のウェルチt検定は、一般に非整数の自由度を持ちます。テストの結果を報告するとき、これらの自由度はどのように引用されるべきですか? さまざまな情報源*によると、「標準トンのテーブルに相談する前に最も近い整数に切り捨てするために、従来のです」 - 。保守的である、丸めのこの方向として理にかなっている。**一部の古い統計ソフトウェア(例えば、あまりにもこれを行うだろうグラフパッド・プリズムバージョンの前に6)といくつかのオンライン計算機はまだあります。この手順が使用されていた場合、切り捨てられた自由度を報告することが適切と思われます。(より優れたソフトウェアを使用することはさらに適切かもしれません!) しかし、最新のパッケージの大部分は小数部分を使用しているため、この場合は小数部分を引用する必要があります。1000分の1の自由度はp値にごくわずかな影響しか与えないため、小数点以下2桁以上を引用するのが適切であるとは思えません。 Googleの学者を見てみると、dfを小数点以下1桁または2桁の整数として引用している論文を見ることができます。使用する精度についてのガイドラインはありますか?また、ソフトウェアは、完全な小数部を使用する場合、引用されたDFは丸められるべきダウン図形の所望の数(例えばに対して7.5845...→7.57.5845...→7.57.5845... \rightarrow 7.5 1〜DPまたは→7→7\rightarrow 7整数として)保存的計算と適切であったとして、または私にとってより賢明なように、7.5845 ... → 7.6から1 dpまたは→ 8が最も近い全体になるように、従来のように(最も近い)丸められますか?7.5845...→7.67.5845...→7.67.5845... \rightarrow 7.6→8→8\rightarrow 8 編集:非整数dfを報告する最も理論的に健全な方法を知っていることは別として、人々が実際に何をしているかを知ることも良いでしょう。おそらく、ジャーナルとスタイルガイドには独自の要件があります。私は、APAのような影響力のあるスタイルガイドが何を要求するのか興味があります。私が識別できることから(マニュアルはオンラインで無料で入手できません)、APAは一般的に、p値(2または3dpの可能性があります)およびパーセンテージ(最寄りパーセント) -カバー回帰スロープ、そのトンの統計、Fの統計、χ2χ2\chi^2統計など。これは非常に非論理的で、小数点以下2桁が非常に異なる有効数字を占め、982.47よりも2.47でかなり異なる精度を示唆しますが、非科学的なサンプルで見た小数点以下2桁のウェルチdfの数を説明するかもしれません。 ∗∗* eg GD、ラクストン不等分散t検定は、スチューデントのt検定およびMann-Whitney U検定の未使用の代替手段です。行動生態学(2006年7月/ 8月)17(4):688-690 doi:10.1093 / beheco / ark016 ∗∗∗∗** Welch-Satterthwaite近似自体は保守的である場合と保守的でない場合がありますが、保守的でない場合は、自由度を切り捨てても全体を補償する保証はありません。

1
コルモゴロフ–スミルノフ検定対t検定
2つのサンプルKSテストの解釈、および2つのグループ間の通常のtテストとの違いを理解するのに多少の困難があります。 男性と女性に何らかのタスクを実行させ、そのタスクからいくつかのスコアを収集するとします。私の究極の目標は、そのタスクで男性と女性のパフォーマンスが異なるかどうかを判断することです したがって、私ができることの1つは、2つのグループ間でテストを実行することです。もう1つできることは、男性と女性のECDFを計算してプロットし、2サンプルのKSテストを実施することです。私はこのようなものを手に入れます: KSテスト KS検定の帰無仮説は、2セットの連続スコア分布が同じ母集団から得られるというものです KSテストを実行すると、D = 0.18888、p-value = 0.04742が得られます 最初に、結果の解釈が正しいことを確認します。ここでは、帰無仮説を棄却し、男性と女性のスコア分布は異なる母集団に由来すると言います。または、言い換えれば、男性と女性のスコアの分布は互いに異なります。 より具体的には、男性はこのタスクでより低いスコアを達成する可能性が高い傾向があり、それはプロットから解釈すると2つの性別の違いです T検定 テストでは、スコア変数で男性と女性の平均値の差をテストします。 このタスクで男性のパフォーマンスが女性より悪い場合を想像してみましょう。その場合、男性のスコアの分布は低い平均に集中し、女性のスコアの分布は高い平均に集中します。男性は低いスコアを達成する確率が高いため、このシナリオは上記のプロットと一致します。 t検定が有意であると判明した場合、私は女性が平均して男性よりも有意に高いスコアを獲得すると結論付けます。または、人口の観点では、女性のスコアは、男性の人口よりも平均が高い人口から引き出されます。これは、異なる人口から得られたKSの結論と非常によく似ています。 違いは何ですか? したがって、KSとtの両方のテストケースで説明する結論は同じです。男性は女性に比べて成績が低い。それで、あるテストを他のテストよりも使用する利点は何ですか?KSテストを使用して得られる新しい知識はありますか? 私が見ているように、分布が低い平均を中心とする男性と高い平均を中心とする女性が、有意なt検定の原因です。しかし、そのまったく同じ事実により、男性はより低い値をスコアリングする確率が高くなり、プロットが上記のようになり、重要なKSテストが行​​われます。そのため、両方のテストの結果には同じ根本原因がありますが、KSテストでは分布の平均以上のものを考慮し、分布の形状も考慮するが、原因を解析することは可能です。テスト結果からの重要なKSテストの では、テスト時にKSテストを実行することの価値は何ですか?そして、この質問のt検定の仮定を満たすことができると仮定しましょう

2
独立サンプルt検定:サンプルサイズが大きい場合、データを本当に正規分布させる必要がありますか?
2つの独立したサンプルの平均が異なるかどうかをテストするとします。基礎となる分布が正規ではないことは知っています。 正しく理解していれば、検定統計量は平均値であり、十分な大きさのサンプルサイズの場合、サンプルがそうでなくても平均値は正規分布になるはずです。したがって、この場合、パラメトリック有意性検定が有効である必要がありますか?私はこれについて矛盾し混乱する情報を読んだので、いくらかの確認(または私が間違っている理由の説明)に感謝します。 また、サンプルサイズが大きい場合は、t統計ではなくz統計を使用する必要があることを読みました。しかし実際には、t分布は正規分布に収束するだけで、2つの統計量は同じである必要がありますか? 編集:以下は、z-テストを説明するいくつかのソースです。両方とも、母集団は正規分布しなければならないと述べています。 ここでは、「使用するZ検定のタイプに関係なく、サンプルの抽出元の母集団は正常であると想定されています」と書かれています。そして、ここで、z検定の要件は、「2つの正規分布しているが独立した母集団、σは既知」としてリストされています。

1
ANOVAのテストの
イントロ:この質問で、今日受け取っ注意を指摘した、「?ペアワイズt検定のいずれでもないとき缶ANOVAが重要である、」私は答えの独自のセットに値するだろう面白い方法でそれをリフレームすることができるかもしれないと思いました。 統計的有意性が単純な二分法として理解され、より高い基準に基づいて判断される場合、または場合、さまざまな不整合な結果(額面)が発生する可能性があります。上記の質問に対する @Glen_bの回答は、次の場合の有用な例を示しています。P αppα\alpha ANOVA F検定FFは、4つのレベルを持つ1つの独立変数(IV)に対してp F &lt; .05pF&lt;.05p_F<.05を生成しますが、 IVの4つのレベルの各ペアに対応する観測値間で、同じ従属変数(DV)の差を比較するpt&gt;.08p_t>.08すべての2サンプル ttt検定で p t &gt; .08。 この質問による事後のペアワイズ比較のボンフェローニ補正にもかかわらず、同様のケースが発生しました:Anovaの反復測定は重要ですが、ボンフェローニ補正とのすべての多重比較はそうではありませんか?重回帰のテストがわずかに異なる前述のケースも存在します。 有意なF統計量(p &lt;.001)であるが有意ではないリグレッサーt検定を取得できるのはなぜですか?:P F &lt; 0.001 、P β T &gt; 0.09pF&lt;.001,pβt&gt;.09p_F<.001,p_{\beta t}>.09 回帰はどのように有意であるが、すべての予測変数は有意ではないのでしょうか? @ whuberさんに答え、P F = 0.0003 、P β T &gt; 0.09pF=.0003,pβt&gt;.09p_F=.0003,p_{\beta t}>.09 私は賭けてこのような場合には、ことをいくつかの(すべてではない)ペアごとの比較(または回帰係数有意性検定)のppp値はかなり近いでなければならないαα\alpha対応オムニバステストが達成できるかどうかのp &lt; αをp&lt;αp <\alpha。私は、これがGlen_bの最初の例@における場合であり、参照F (3 、20 ) = 3.19F(3,20)=3.19F_{(3,20)}=3.19、P F = …


3
Box-Cox変換されたデータで、元の単位で回答を表現します
一部の測定では、分析の結果が変換されたスケールで適切に表示されます。ただし、ほとんどの場合、元の測定スケールで結果を表示することが望ましいです(そうでない場合、作業は多かれ少なかれ価値がなくなります)。 たとえば、ログ変換されたデータの場合、ログに記録された値の平均は平均のログではないため、元のスケールでの解釈に問題が発生します。対数スケールでの平均の推定値の逆対数をとっても、元のスケールでの平均の推定値は得られません。 ただし、ログ変換されたデータに対称分布がある場合、次の関係が成り立ちます(ログは順序を保持するため)。 Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]Mean[log⁡(Y)]=Median[log⁡(Y)]=log⁡[Median(Y)]\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)] (ログ値の平均の逆対数は、測定の元のスケールの中央値です)。 したがって、元の測定スケールでの中央値の差(または比率)についてのみ推測できます。 母集団がほぼ標準偏差でほぼ正常である場合、2サンプルのt検定と信頼区間は最も信頼性が高いBox-Coxため、正規性の仮定に変換を使用するように誘惑される可能性があります(変換を安定化する分散でもあると思います)。 ただし、Box-Cox変換されたデータにt-toolsを適用すると、変換されたデータの平均の違いに関する推論が得られます。それらを元の測定スケールでどのように解釈できますか?(変換された値の平均は、変換された平均ではありません)。つまり、変換されたスケールで平均の推定値の逆変換を行っても、元のスケールでの平均の推定値は得られません。 この場合、中央値についてのみ推論することもできますか?(元のスケールで)平均に戻ることができる変換がありますか? この質問は最初はコメントとしてここに投稿されました

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.