ウェルチのt検定は、より極端な差に対してより悪いp値を与えます


8

以下は、4つの異なる数値セットです。

A = {95.47、87.90、99.00}
B = { 79.2、75.3、66.3 }
C = { 38.4、40.4、32.8} D = { 1.8、1.2、1.1
}

等しい分散を仮定せずに2サンプルのt検定を使用して、B、C、およびDをAと比較し、次のp値を取得します。

0.015827(A vs B)
0.000283(A vs C)
0.001190(A vs D)

ADテストのp値がACテストよりも悪いのは奇妙だと思います。平均値の差は明らかにはるかに大きく、Dの分散はCの分散よりもはるかに低くなっています。直感的に(少なくとも私の直感では) )、これらの両方の事実により、p値が低くなるはずです。

これがt検定の望ましい動作または期待される動作であるか、それとも私の特定のデータセット(おそらく極端に低いサンプルサイズ)をさらに処理する必要があるかどうか、誰かが説明できますか?t検定は、この特定のデータセットには不適切ですか?

純粋に計算の観点から、より悪いp値の理由は自由度であると思われます。これは、AD比較では2.018、AC比較では3.566です。しかし、確かに、これらの数値を見ただけの場合、ACと比較してADのケースでは帰無仮説を棄却するためのより強力な証拠があると思いませんか?

いずれにせよすべてのp値が非常に低いため、これはここでは問題ではないと示唆する人もいます。私の問題は、これら3つのテストが、私が実行している一連のテストの一部であることです。複数のテストを修正した後、AD比較ではカットされませんが、AC比較ではカットされます。これらの数値をプロットして(生物学者がよく行うようにエラーバーを含む棒グラフなど)、CがAと大幅に異なるが、Dはそうでない理由を正当化しようとしていると想像してみてください。

更新:これが本当に重要な理由

この観察が過去の研究の解釈に大きな影響を与える可能性がある理由を明確にしましょう。バイオインフォマティクスでは、t検定が大規模な小さなサンプルサイズに適用されることを確認しました(3〜5回の複製のみを使用して、数百または数千の遺伝子の異なる遺伝子発現、または細胞株に対する多くの異なる薬物の影響を考えてください) )。通常の手順は、多くのt検定(各遺伝子または薬物に対して1つ)を実行し、その後に複数の検定修正(通常はFDR)を実行することです。ウェルチのt検定の動作の上記の観察を考えると、これは、いくつかの非常に最良のケースが体系的に除外されていることを意味します。ほとんどの人は、リストの一番上にある比較の実際のデータ(最高のp値を持つデータ)を確認しますが、帰無仮説がなかったすべての比較のリストを確認する人は誰も知りません。 t拒否されました。


1
ウェルチの式は近似値です。 シミュレーション調査では、AD比較の場合のように、「サンプルサイズが大きく異なる場合、ウェルチ補正が保守的になりすぎる」と示されています。
whuber

1
この場合、サンプルサイズは@whuberと同じです。サンプル分散を意味しましたか?
ALiX 2012年

1
ありがとう、ALix、あなたは正しい。非常に不均一な分散と等しいサンプルサイズの場合、別の結論を引用する必要がありました(さらに悪いことに!): "...タイプIエラー...さまざまな程度に膨らみ、テストが無効になり、使用しないでください。」
whuber

あなたのデータはrna-seqからの読み取りカウントですか?もしそうなら、私はあなたがDESeq(R / Bioconductorパッケージ)を検討することを提案できますか?genebiology.com/2010/11/10/R106
bdemarest

回答:


3

はい、それは自由度です。グループB、C、DをAと比較すると、t統計自体が増加します。分子が大きくなり、分母が小さくなります。

なぜあなたのアプローチは「働かない」のですか?さて、自由度のSatterthwaite近似、および参照分布は(名前が示すように)単なる近似です。各グループにもっと多くのサンプルがあり、極端に重いデータではない場合、問題なく機能します。グループごとに3つの観測値は、ほとんどの目的にとって非常に小さいです。(また、p値はテストを行うのに役立ちますが、証拠を測定したり、データの観点から直接解釈してパラメーターを推定したりすることはありません。)

テスト統計の正確な分布、およびより適切に較正されたp値を実際に計算したい場合は、ここ引用した方法を使用できます。ただし、ここでは、正常性を確認することに依存しています。


それ以上のサンプルだけでは役に立たないでしょう。p値は低くなりますが、p値の順序は同じです。これが一部のアプリケーションで重要になる理由については、私の更新を参照してください。
ALiX 2012年

この現象が重要である可能性があることには同意しますが、グループごとにより多くのサンプルが役立つでしょう。漸近的に、検定は正確なp値を与えます。ただし、小さなグループでは、順列ベースの分析から統計的妥当性を得る正確な方法(たとえば、TibshiraniによるSAM)があります。
ゲスト

2つのグループの分散に大きな違いがある場合、サンプルサイズを増やしても、p値の順序が間違っているという意味では役に立ちません(つまり、ACは依然としてADよりもp値が低くなります)。SAMは、さまざまな濃度で多くの化合物の効果をテストする場合は使用できません(これはt検定の理想的なアプリケーションです)。ウェルチのt検定には、根本的に欠陥があるように見えます。その目的は、不等分散を処理することですが、不等分散が多ければ多いほど、性能が低下します(自由度の近似の程度が低下します)。
ALiX

1
異なる濃度レベルのペアワイズ比較が必要で、多くの遺伝子の遺伝子発現レベルをテストしている場合、SAMを各ペアワイズ比較に使用でき、各比較の統計的有意性の正直なステートメントを提供します。次に、必要に応じて、これらを使用して比較をランク付けできます。また、ウェルチのテストには根本的な欠陥はありません。確かに、n = 3ではうまく機能しませんが、これは主張していることではありません。自転車のポンプはジャガイモの皮をむくのに絶望的ですが、これはそれが「根本的に欠陥がある」と結論づけることができるということを意味しません。
ゲスト

1
順序が間違っている可能性があるため、何の役にも立ちません。実際のデータのグループ間平均差の統計的有意性で並べ替え、中程度のサイズのサンプルがある場合は、ウェルチ検定のp値で問題ありません。小さなサンプルサイズでは、いいえ、うまくいきませんが、これは概算として開発されたものであり、多くの競合他社よりもうまく機能することを考えると、これは批判の原因にはなりません。
ゲスト

1

この質問にはかなりの部分があり、その一部は私の理解を超えていると確信しています。したがって、私は「問題」といくつかの推測に対するおそらく解決策を持っていますが、私の「動作」を確認する必要があるかもしれません。

あなたは証拠に興味があります。フィッシャーはp値を証拠として使用することを提案しましたが、帰無仮説に対するデータセット内の証拠は、p値よりも尤度関数でより簡単に(賢明に?)示されます。ただし、より極端なp値はより強力な証拠です。

これが私の解決策です。ウェルチのt検定を使用しないでください。代わりに、平方根変換を使用してデータを変換し、分散を平均化してから、標準のスチューデントのt検定を使用します。この変換はデータに対して適切に機能し、異分散性のデータに対する標準的なアプローチの1つです。p値の順序が直感に一致し、証拠として役立ちます。

長期的な偽陽性エラーから保護しようとするのではなく、証拠としてp値を使用している場合、多重比較のためにp値を調整するための引数は、私の意見ではかなり弱くなります。

今、投機的な部分です。私が理解しているように、ウェルチのt検定はフィッシャーベーレンス問題の解決策です(検定とは、データの分散が等しくないことを意味します)。おそらくそれは根本的な哲学においてネイマン・ピアソニアンであろう。とにかく、t検定からのp値の証拠量は、p値とサンプルサイズに依存します。(これは広く認識されていません。おそらく、z検定からのp値の証拠がサンプルサイズに依存しないためです。)ウェルチのテストは、自由度の調整によってp値の証拠的な性質を台無しにしていると思います。


解決策として平方根変換を指摘していただきありがとうございます。調べてみます。
ALiX

(続き)p値と複数のテストについてのコメントは本当にわかりません。p値を証拠として使用することと、複数のテスト用に調整することとの間に矛盾はありますか?そして、サンプルサイズに応じたt検定のp値の証拠に関する最後のコメント:自由度はサンプルサイズに合わせて調整されていませんか?さらに、サンプルサイズがすべての比較で同じである場合、これはこの特定のデータセットにどのような影響を与える可能性がありますか?
ALiX、2012年

@AliX帰無仮説に対する証拠は、尤度関数によって最もよく定量化されます。t検定の場合、特定のp値に対応する尤度関数の高さはサンプルサイズに依存します。対照的に、z検定では、尤度関数の高さはサンプルサイズの影響を受けません。証拠に興味がある場合は、統計的証拠:Richard Royallによる可能性のパラダイムを参照することをお勧めします。
Michael Lew

1

掘り下げた後、私の最終的な評決は次のようになると思います:

議論を簡単にするために、サンプルサイズが等しい場合のみを考えてみましょう。その場合、自由度の近似は次のように書くことができます。

s12+s222s1421+s2421==11+2s12s22s14+s24

s12s22121

多くのt検定が実行される場合、比較をp値で並べ替えると、最良の比較がリストの先頭にならないか、複数の検定の調整後に除外される可能性があります。

私の個人的な意見では、これはウェルチのt検定の根本的な欠陥であり、分散が等しくないサンプル間の比較のために設計されていますが、分散が等しくないほど、パワーが失われます(pの順序が-値は正しくありません)。

私が考えることができる唯一の解決策は、代わりにいくつかの順列ベースのテストを使用するか、テストの分散が互いに離れすぎないようにデータを変換することです。


1
それは「基本的な欠陥」と呼ばれるべきではないと思います。すべては何かに関連しています。ウェルチのt検定は、スプールされた分散のt検定の過小評価されたタイプIのエラーに応答して出されたため、スプールされた分散のt検定と「比較される」タイプIエラーを制御する改善された方法です。しかし、MCPと非常に低いp値に関しては、確かに問題があります。
KHキム

2

0

私が知る限り、サッタースウェイト近似を使用するウェルチのt検定を聞いた

0.05の有意性検定で検証されます。

つまり、P(カイ二乗分布の線形結合> c)= 0.05の場合、

おおよそのcを得ることができます。

したがって、p値は0.05前後でかなり信頼できると思います。

そして、明らかに0.05未満になると、そうではありません。

pvalあなたep2[メートル]=ttestadvareqaあなたl=F

0.05に近づくにつれて、p値がより正確になることがわかります...

したがって、ウェルチのt検定を使用する場合、0.05をはるかに下回るp値を使用してはなりません。

使用する場合は、論文を書いたほうがいいと思います。

とにかく、私は現在「統計学」について書いており、このテーマは興味深いものです。

あなたの許可を得て本を書いているあなたのデータを使用したいと思います。

あなたのデータを使用させてもらえますか?

そして、あなたがデータのソースとそこからのコンテキストを教えてくれるなら、私は感謝します

彼らが来ました!


これについていくつかの調査を行ったところ、近似は次のようになることがわかりました。chi_1 ^ 2(df1)+ b chi_2 ^ 2(df2)の分布を知りたいが、正確な分布は非常に複雑なので、近似が始まります。そして、chi_1 ^ 2 + b chi_2 ^ 2 = c chi_3 ^としましょう2(df3)、2つの分布の平均と2次モーメントが同じになるようにdf3を設定します。したがって、p = 0.5は正確ですが、それから離れるにつれて、差b2は正確なpと近似のpが大きくなります。私は、ウェルチのtを行った際、Rは、いつも私が推測する、「p値が正確ではありません」印刷覚えて
KHキム・

私はデータを分析しているだけなので、データは実際には自分のものではありません。しかし、データが公開されると(間もなく公開されます)、好きなように使用できるはずです。
ALiXは
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.