以下は、4つの異なる数値セットです。
A = {95.47、87.90、99.00}
B = { 79.2、75.3、66.3 }
C = { 38.4、40.4、32.8} D = { 1.8、1.2、1.1
}
等しい分散を仮定せずに2サンプルのt検定を使用して、B、C、およびDをAと比較し、次のp値を取得します。
0.015827(A vs B)
0.000283(A vs C)
0.001190(A vs D)
ADテストのp値がACテストよりも悪いのは奇妙だと思います。平均値の差は明らかにはるかに大きく、Dの分散はCの分散よりもはるかに低くなっています。直感的に(少なくとも私の直感では) )、これらの両方の事実により、p値が低くなるはずです。
これがt検定の望ましい動作または期待される動作であるか、それとも私の特定のデータセット(おそらく極端に低いサンプルサイズ)をさらに処理する必要があるかどうか、誰かが説明できますか?t検定は、この特定のデータセットには不適切ですか?
純粋に計算の観点から、より悪いp値の理由は自由度であると思われます。これは、AD比較では2.018、AC比較では3.566です。しかし、確かに、これらの数値を見ただけの場合、ACと比較してADのケースでは帰無仮説を棄却するためのより強力な証拠があると思いませんか?
いずれにせよすべてのp値が非常に低いため、これはここでは問題ではないと示唆する人もいます。私の問題は、これら3つのテストが、私が実行している一連のテストの一部であることです。複数のテストを修正した後、AD比較ではカットされませんが、AC比較ではカットされます。これらの数値をプロットして(生物学者がよく行うようにエラーバーを含む棒グラフなど)、CがAと大幅に異なるが、Dはそうでない理由を正当化しようとしていると想像してみてください。
更新:これが本当に重要な理由
この観察が過去の研究の解釈に大きな影響を与える可能性がある理由を明確にしましょう。バイオインフォマティクスでは、t検定が大規模な小さなサンプルサイズに適用されることを確認しました(3〜5回の複製のみを使用して、数百または数千の遺伝子の異なる遺伝子発現、または細胞株に対する多くの異なる薬物の影響を考えてください) )。通常の手順は、多くのt検定(各遺伝子または薬物に対して1つ)を実行し、その後に複数の検定修正(通常はFDR)を実行することです。ウェルチのt検定の動作の上記の観察を考えると、これは、いくつかの非常に最良のケースが体系的に除外されていることを意味します。ほとんどの人は、リストの一番上にある比較の実際のデータ(最高のp値を持つデータ)を確認しますが、帰無仮説がなかったすべての比較のリストを確認する人は誰も知りません。 t拒否されました。