対応のあるt検定と非対応のt検定


20

20匹のマウスがあると仮定します。何らかの方法でマウスをペアリングし、10ペアを取得します。この質問の目的のために、それはランダムなペアリングであるかもしれません、または、同じ性別、同じ性別、同じ体重のマウスをペアリングしようとするような賢明なペアリングであるかもしれません、または、それは可能な限り等しくない重量のマウスをペアにしようとしています。次に、乱数を使用して、各ペアの1匹のマウスをコントロールグループに割り当て、もう1匹のマウスを治療対象グループに割り当てます。私は今、実験を行い、治療対象のマウスのみを治療しますが、それ以外の点では、今行った準備にはまったく注意を払いません。

結果を分析する場合、ペアになっていないt検定またはペアになったt検定を使用できます。もしあれば、どのように答えは異なりますか?(私は基本的に、推定する必要のある統計的パラメーターの体系的な違いに興味があります。)

私がこれを尋ねる理由は、最近私が関与した論文が、ペアになっていないt検定ではなくペアになったt検定を使用しているとして生物学者によって批判されたためです。もちろん、実際の実験では、状況は私がスケッチした状況ほど極端ではなく、私の意見では、ペアリングの正当な理由がありました。しかし、生物学者は同意しませんでした。

私がスケッチした状況では、ペアリングが不適切であっても、ペアリングされていないテストではなくペアリングされたt検定を使用して、統計的有意性を誤って改善する(p値を下げる)ことは不可能だと思われます。ただし、マウスのペアが不適切な場合、統計的有意性が悪化する可能性があります。これは正解?

回答:


23

フランクとピーターの両方が指摘する点には同意しますが、問題の核心になり、OPが検討する価値のある単純な公式があると思います。

ましょYは、その相関関係は不明である2つの確率変数です。バツY

してみましょうZ=バツY

の分散とは何ですか?Z

以下に簡単な式を示します: どのような場合にはCovをX Y > 0(すなわち、XYは、正に相関していますか)?

ヴァーZ=ヴァーバツ+ヴァーY2CovバツY
CovバツY>0バツY

次に、ヴァーZ<ヴァーバツ+ヴァーY。この場合、介入の前後で同じ被験者を扱っている場合など、正の相関のためにペアリングが行われた場合、独立したペアの差異は、ペアになっていないケースで得られる分散よりも低い分散を持っているので役立ちます。この方法は分散を低減しました。テストはより強力です。これは、循環データで劇的に示されます。私は、ワシントンDCの気温がニューヨーク市の気温よりも高いかどうかを確認したい本で例をみました。そのため、両都市の平均月間気温は、たとえば2年間かかっていました。もちろん、四季のために一年を通して大きな違いがあります。この変動は、対応のないt検定では差を検出するには大きすぎます。ただし、同じ年の同じ月に基づいてペアリングすると、この季節的な影響がなくなり、ペアリングされたは、DCの平均気温がニューヨークよりも高い傾向があることを明確に示しました。X i A NYの気温)と Y i A DCの気温)は、NYとDCの季節が同じであり、都市はしばしば同じ気象システムを経験するほど近いため、正の相関があります。温度に影響します。DCはさらに南にあるため、少し暖かいかもしれません。tバツAYA

共分散または相関が大きいほど、分散が減少することに注意してください。

が負あると仮定します。CovバツY

次に、分散が実際に増加するため、ペアリングはペアリングしないよりも悪くなります!ヴァーZ>ヴァーバツ+ヴァーY

ときにYが相関していない、おそらくあなたが使用した方法は問題ではありません。ピーターのランダムペアリングの場合は、このような状況です。バツY


3
Michael、 "<"と ">"はWebページ上で特別な意味を持つため、テキストの大きなスワスがビューから消えないようにするには、Tを使用することが不可欠です。方程式におけるそれらの Xマークアップ(コードはそれぞれ「\ lt」および「\ gt」です)。この問題を引き起こした2つの方程式をマークアップしました。将来的には、投稿後すぐに投稿内容を読んで、あなたが見ていると思われるものを人々が見ていることを確認してください。TEバツ
whuber

@whuberありがとう。私は通常、投稿中および投稿後にチェックを行います。なぜなら、特に添字を付けるときは、方程式がめちゃくちゃになるからです。これが見当たらないのは珍しいことであり、おそらく長い投稿であり、私が不注意にやりたいことややりたいことが他にあったからです。時々、電話で気が散って、確認するのを忘れます。投稿でテキストが消える原因となる特別なシンボルについて、私はそれを観察しました。簡単な解決策は、シンボルの後にスペースを残すことです。私は過去に私のために働いたと思います。
マイケルR.チャーニック

+1、本当にオンポイント。サンプルYが完全に無相関の場合、Var Z = Var X + Var Y )であることに注意してくださいバツYヴァーZ=ヴァーバツ+ヴァーY
グング-モニカを復元

@MichaelChernick Cov(X、Y)<0の場合、質問があります:私の目標が私の実験からE [X] -E [Y]を推論することである場合、私はペア研究を実施しましたが、データを分析しても、実験結果がUNPAIREDランダム化実験の実現であると考えることができます。これはできますか?あなたが本当にペアのないランダム実験をしたなら、あなたは文字通り同じ結果を得ることができるからです。次に、各グループの平均を取得し(ペアリングは無視)、2つのグループの平均の差を取得します。これは、E [Z]の不偏推定量です。私の推定量の分散のために、私は...を使用します
。-ケビンキム

@MichaelChernickグループXとグループYのサンプル分散とそれらを合計する
ケビンキム

7

ペアリングするよりも、基礎となるデータモデルを理解する方がおそらく良いでしょう。制御されていない不均一性に対処するためにペアリングが行われた場合、通常、ペアリングはこの変動性の原因を部分的にのみ制御し、重回帰はより良い結果となります(双子の研究を除く)。これは、連続変数でのマッチングでは、そのような変数で正確なマッチングを行うことができないため、頻繁に残留変動が生じるためです。


2
私たち全員が回帰を行う必要がある場合、David Coxの本のように実験デザインの本が生物学実験でのペアリングまたはグループ化の重要性を強調するのはなぜですか?ペアリングにより、回帰に伴う線形依存性の隠れた仮定が回避されます。しかし、おそらく他の理由があります:誰か?
デビッドエプスタイン

6

2つのテスト(ペアと非ペア)は異なる質問をするため、異なる回答が得られます。正しいペアリングはほとんどの場合、ペアリングされていないペアリングよりも強力です-それが本当にペアリングのポイントです。そのため、ペアリングが正しいと言うので、ペアリングされたテストのp値は、ペアリングされていない同じデータのp値よりも低い可能性があります。もちろん、両方を実行して自分で確認することもできます。

したがって、ジレンマに対する答えは実質的なものであり、統計的なものではありません。ペアリングは正しいですか?

ペアリングされていないテストからよりもランダムなペアリングからより重要な結果を得ることができますか?どれどれ:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

はい、できます。ここでは、差は非常に小さいですが、ペアのpは低くなっています。そのコードを数回実行しました。当然のことながら、1つのpが低い場合もあれば、他のpが低い場合もありますが、すべてのケースで差は小さくなっています。ただし、状況によってはp値の差が大きくなる可能性があります。


答えてくれてありがとう、しかし私の質問は体系的な違いを求めた。明らかに、xとyの長期にわたって、xとyは、非常にうまくペアリングされているように見えることがあります。また、意図的にひどくペアリングされているように見えることもあります。確かに、xとyをランダムに選択したときに、p値の分布が2つのテストで同じであるかどうかは統計上の問題です。p値の2つの理論的分布を実際に計算することは、私よりも理論的な統計を知っている人にとってそれほど難しくないはずです。私の推測では、それらは同じです。
デビッドエプスタイン

私が関わった実際のケースでは、非ペアのp値は約.04で、ペアの.001でした。重要な生物学者によると、0.04を引用する必要があります。私によると、p値の改善は、ペアリングが有効だったことを強く示しています。ここで統計に客観的な質問があり、客観的な答えがあり、それは特定のペアリングの有効性に関する良好な生物学的判断の質問ではないことを主張します-後者はPeter Flomと重要な生物学者。
デビッドエプスタイン

1
統計が物語を物語っていると思います。両方の結果を開示する必要がありますが、データが正しく、相関関係を説明できる限り、相関を考慮に入れるため、ペアテストはより正確です。
マイケルR.チャーニック

5

対になったt検定と対になっていないt検定、および関連するp値について心配していることは、今ではずっとよく理解できます。見つけることは興味深い旅であり、その過程で多くの驚きがありました。マイケルの貢献を調査した結果、1つの驚きがありました。これは実際的なアドバイスという点では非難できません。さらに、彼は私が事実上すべての統計学者が信じていると思うことを言い、彼はこれを支持するいくつかの賛成票を持っています。しかし、理論の一部として、それは文字通り正確ではありません。これを発見したのは、p値の式を作成し、その式を使用して反例に導く方法を慎重に考えたことです。私は訓練を受けた数学者であり、反例は「数学者の反例」です。実際の統計で出くわすものではありませんが、 元の質問をしたときに見つけようとしていたもの。

反例を示すRコードは次のとおりです。

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

次の機能に注意してください。XとYは2つの10タプルで、その差は大きく、ほぼ一定です。多くの有意な数字では、相関は1.000です。...対応のないテストのp値は、対応のあるテストのp値の約10 ^ 40倍です。したがって、これはマイケルのアカウントと矛盾します。ただし、文字通り数学者スタイルのアカウントを読んだ場合に限ります。マイケルの答えに関連する私の答えの一部はここで終わりです。


ここにピーターの答えによって促された考えがあります。私の元の質問の議論の中で、私はコメントの中で、異なるように聞こえるp値の2つの特定の分布は実際には同じであると推測しました。これを証明できます。さらに重要なことは、証明がp値の基本的な性質を明らかにすることであり、非常に基本的なため、テキスト(私が遭遇したこと)で説明する必要はありません。専門家の統計学者はすべて秘密を知っているかもしれませんが、私にとっては、p値の定義は常に奇妙で人工的なものに見えました。統計学者の秘密を伝える前に、質問を指定させてください。

n>1n2n1n1自由度。これらの2つの分布は異なるので、一体どのように関連するp値の分布を同じにすることができますか?さらに考えた後初めて、この推測のこの明らかな却下はあまりにも簡単であることに気づきました。

f00[01]

p=tfsds
f[0

[01]

n1[01]2n1[01][01]


p値には不思議なセクトがあるとは思わない。一部の人々はそれに苦労しています。これは、帰無仮説がTRUEの場合に実際に観測された値よりも極端または極端な値として観測される確率です。あなたはあなたの式の1つにその権利があったと思います。あなたは、p値が均一に分布していると述べたと思います。はい、帰無仮説が真である場合、それに同意します。t検定では帰無仮説が正しくない可能性があることに注意してください。その場合、p値は均一ではありません。これは、近い0に集中しなければならない
マイケルR. Chernick

次に、2つの異なるテスト統計について話します。1つはペアリングに基づいており、もう1つは例ではありません。私の答えで言及したかどうかにかかわらず、対応のないt検定は2n-2自由度の中心t分布を持ち、対応のあるt検定の対応するt分布はn-1自由度を持ちます。そのため、自由度の数が多い方が他方よりも標準正規分布に近くなります。これらのテストを実際のデータに適用するときに問題になりますか?いや!nがかなり大きい場合ではありません。
マイケルR.チャーニック

補足として、ペアテストの制限は、すべてのデータをペアにできる場合に必要なサンプルサイズが等しいことを要求しています。ただし、対応のないテストは、サンプルサイズが等しくない場合に有効です。したがって、一般に、対応のないテストにはn + m-2の自由度があります。
マイケルR.チャーニック

あなたの答えは長くて抽象的なものであり、私はそれを通り抜けようとしましたが、反例を理解していませんでした。帰無仮説と実際のデータを考慮に入れる場所がわかりません。観測されたp値は、データが与えられた検定統計量の適切なt分布の積分です。2つのt分布と同じ共通データセットのこれらの数値を比較します。観測されたデータを条件にすると、これらの均一な分布は何の役割も果たしません。申し訳ありませんが、あなたの答えが本当にあなたの質問に答えているとは思いません。
マイケルR.チャーニック

マイケル:私が与えたRコードに集中してください。実行するのに数秒しかかかりません。帰無仮説は、XとYが同じ正規分布に由来するということです。これは、もちろん私の場合は非常に間違っています。私の例では、Cov(X、Y)> 0ですが、ペアのないテストはペアのテストよりも重要です。
デビッドエプスタイン

1

別の視点を提供します。多くの場合、ペアリングはバイアスを減らすために行われます。露出Eが継続的な結果Yの危険因子であるかどうかに興味があるとします。各E +被験者について、年齢と性別が一致した被験者がE-であるとします。これで、対応のあるt検定または非対応のt検定を行うことができました。マッチングを明示的に考慮し、ペアのt検定を実施する必要があると思います。それは設計を考慮に入れるという点でより原則的です。分析でマッチングを考慮するかどうかは、バイアスと分散のトレードオフの問題です。分析でマッチングを考慮すると、バイアスに対する保護が強化されますが、分散が増加する可能性があります。対応のないt検定を行う方が効率的かもしれませんが、バイアスに対する保護は提供されません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.