2つのグループ間の違いをテストする方法は、データが正規分布していないことを意味しますか?


19

生物学的な詳細と実験をすべて削除し、目前の問題と統計的に行ったことを引用します。その権利があるかどうか、もしそうでない場合は、どうすればよいかを知りたい。データ(または私の説明)が十分に明確でない場合は、編集して説明を改善します。

サイズおよび 2つのグループ/観測、XおよびYがあるとします。これら2つの観測値の平均が等しいかどうかを知りたいです。私の最初の質問は:Nバツ=215Ny=40

  1. 仮定が満たされている場合、ここでパラメトリック2サンプルt検定を使用することは適切ですか?私の理解から、サイズが小さいときに通常適用されるので、これを尋ねますか?

  2. XとYの両方のヒストグラムをプロットしましたが、2標本t検定の仮定の1つである正規分布ではありませんでした。私の混乱は、それらを2つの母集団であると考え、それが正規分布を確認した理由です。しかし、その後、2つのサンプルのt検定を実行しようとしています... これは正しいですか?

  3. 中心極限定理から、サンプリング(母集団のサイズに応じて繰り返しの有無を問わず)を複数回実行し、毎回サンプルの平均を計算すると、ほぼ正規分布になることがわかります。また、このランダム変数の平均は、母平均の適切な推定値になります。そこで、XとYの両方でこれを1000回行うことにし、サンプルを取得し、各サンプルの平均にランダム変数を割り当てました。プロットは非常に正規分布していました。XとYの平均は4.2と15.8(母集団±0.15と同じ)で、分散は0.95と12.11でした。
    これらは非常に異なるため(0.95と12.11)、分散が等しくないこれら2つの観測値(それぞれ1000データポイント)でt検定を実行しました。そして、帰無仮説は棄却されました。
    これはまったく理にかなっていますか?これは正しい/意味のあるアプローチですか、2サンプルのz検定で十分ですか、それともまったく間違っていますか?

  4. また、念のため(元のXとYで)ノンパラメトリックウィルコクソン検定を実行しましたが、帰無仮説も同様に説得力をもって拒否されました。私の以前の方法がまったく間違っていた場合、統計的な検出力を除いて、ノンパラメトリック検定を行うのが良いと思いますか?

どちらの場合も、平均は大きく異なりました。ただし、どちらかまたは両方のアプローチに問題があるか、まったく間違っているかどうかを知りたい場合はどうすればよいですか?

回答:


21

t検定が小さなサンプルに対してのみであるという考えは、歴史的なホールドオーバーです。はい、元々は小さなサンプル用に開発されましたが、理論上、小さなサンプルと大きなサンプルを区別するものはありません。コンピュータが統計を行うために一般的になる前は、tテーブルはしばしば30自由度程度までしか上昇せず、それ以上の正規分布はt分布の近似として使用されていました。これは、tテーブルのサイズを適切に保つための便宜のためでした。これで、コンピューターを使用して、任意のサンプルサイズでt検定を実行できます(ただし、非常に大きなサンプルの場合、z検定とt検定の結果の差は非常に小さくなります)。主なアイデアは、標本を使用して標準偏差を推定するときにt検定を使用し、母標準偏差が既知の場合(非常にまれ)にz検定を使用することです。

中央極限定理では、サンプルサイズが十分に大きい限り母集団が正規分布していなくても、通常の理論推論(この場合はt検定)を使用できます。これは、テストが概算であることを意味します(ただし、サンプルサイズでは、承認は非常に良好です)。

ウィルコクソン検定は平均の検定ではありません(母集団が完全に対称であり、他のありそうもない仮定が成り立つことを知っている場合を除きます)。平均が関心のある主要なポイントである場合、t検定はおそらく引用するのに適したものです。

標準偏差が非常に異なり、形状が非正規であり、おそらく互いに異なる場合、平均の違いはここで起こっている最も興味深いことではないかもしれません。科学と、結果で何をしたいかを考えてください。決定は人口レベルで行われますか、それとも個人レベルで行われますか?この例を考えてみてください。ある病気の2つの薬を比較している場合、薬Aではサンプルの半分がすぐに死亡し、残りの半分は約1週間で回復しました。薬物Bでは、すべてが生存して回復しましたが、回復までの時間は1週間以上でした。この場合、どの平均回復時間が短いか本当に気になりますか?または、Aで死にかけている半分を、回復するのに本当に長い時間をかけるだけで置き換えます(Bグループの誰よりも長い)。


グレッグありがとう。私は手順自体に問題はないと思いますか?私は正しい質問をしていないかもしれないことを理解していますが、私の懸念は、2つのサンプルを与えられた場合の統計的テスト/手順とそれ自体の理解についても同様です。正しい質問をしているかどうかを確認し、質問がある場合は戻ってきます。たぶん、生物学的問題を説明すれば、より多くの提案に役立つでしょう。再度、感謝します。
アルン

5

グレッグのすでに非常に包括的な答えへの追加。

私があなたを正しい方法で理解しているなら、あなたのポイント3は次の手順を述べています:

  • nバツ
  • mn
  • これを1000回繰り返し、対応する平均を保存します
  • バツ

今、あなたの仮定は、この意味で中心極限定理が成り立ち、対応するランダム変数が正規分布するということです。

たぶん、エラーを特定するために計算の背後にある数学を見てみましょう:

バツ バツ1バツnバツ1バツnバツmk

Yk=1m=1mバツμk

μkn

11000k=110001m=1mバツμk

バツ1000m1000mバツ

しかし、現在、中央極限定理は、多くの独立したランダム変数の合計がほぼ正常であると述べています。(これは、平均もほぼ正常であるという結果になります)。

上記の合計では、独立したサンプルは生成されません。あなたはおそらくランダムな重みを持っていますが、それはあなたのサンプルをまったく独立させません。したがって、3で書かれた手順は違法です。

t


ありがとうございました。t-testはすでにCLTを使用して問題を処理しているようです(私が見落としたgregの応答から)。それを指摘し、3)の明確な説明をありがとう。これは私が実際に知りたかったことです。これらの概念を理解するには、もっと時間をかける必要があります。
アルン

2
CLTは、手元の分布に応じて異なるパフォーマンスを発揮します(さらに悪いことに、分布の期待値または分散が存在しない場合、CLTは有効ではありません)。疑わしい場合は、観察した分布に似た分布を生成し、この分布を数百回使用してテストをシミュレートすることをお勧めします。近似CLTサプライ品の品質を実感できます。
ティロ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.