非常に歪んだデータでt検定を使用する必要がありますか?科学的証拠をお願いします?


15

ユーザーの参加(例:投稿数)に関する、非常に歪んだ(指数分布のように見える)データセットのサンプルがあり、サイズが異なる(ただし200以上)ので、平均を比較したいと思います。そのために、2つのサンプルの対応のないt検定を使用しています(サンプルの分散が異なる場合は、ウェルチ係数を使用したt検定)。私が聞いたように、本当に大きなサンプルの場合、サンプルが正規分布していないことは問題ではありません。

私がやったことを検討している人が、私が使用しているテストは私のデータには適さないと言った。彼らは、t検定を使用する前に私のサンプルをログ変換することを提案しました。

私は初心者なので、研究の質問に「参加指標のログ」で答えるのは本当に混乱しているように思えます。

彼らは間違っていますか?私が間違っている?それらが間違っている場合、私がそれらを引用/表示できる本または科学論文はありますか?私が間違っている場合、どのテストを使用する必要がありますか?


1
T検定には、正規分布の仮定 csic.cornell.edu/Elrod/t-test/t-test-assumptions.htmlがあります。サンプルが十分に大きい場合、正規分布に近いt分布と考えているかもしれません。
rdorlearn 14

6
この文脈で「科学的証明」とはどういう意味ですか?
Glen_b -Reinstateモニカ

1
私は、特定の母集団からのすべての可能なサンプルのすべての平均が正常であるべきだという仮定だと思いました。したがって、CLTによって、それは私のデータセットにも当てはまります。
ミレーナアラウージョ14

1
科学的証拠=学術関連の何か:本、論文など
ミレーナアラウージョ14

回答:


36

私は「指数関数的」とは呼ばないでしょう。たとえば、ログは明らかに左スキューであり、モーメントスキューはわずか2です。

1)指数データとn 500に近いt検定を使用するのは 問題ありません

a)検定統計量の分子は大丈夫です:データが共通のスケールで独立した指数関数的であり(それよりも実質的に重くない)、平均値は観測数に等しい形状パラメーターでガンマ分布します。その分布は、形状パラメーターが約40を超えると非常に正規に見えます(精度が必要なテールまでの距離によって異なります)。

これは数学的な証明が可能ですが、数学は科学ではありません。もちろん、シミュレーションで経験的に確認できますが、指数関数性が間違っている場合は、より大きなサンプルが必要になる場合があります。これは、n = 40の場合、指数データのサンプル合計(したがってサンプル平均)の分布がどのように見えるかです。

ここに画像の説明を入力してください

非常にわずかなスキュー。この歪度は、サンプルサイズの平方根として減少します。したがって、n = 160では、スキューの半分になります。n = 640の場合、スキューは4分の1です。

ここに画像の説明を入力してください

これが事実上対称的であることは、平均について裏返し、上にプロットすることで確認できます。

ここに画像の説明を入力してください

青がオリジナルで、赤が反転します。ご覧のとおり、それらはほぼ偶然です。

-

n=40

ここに画像の説明を入力してください

n=500

-

c)しかし、実際に重要なのは、ヌルの下での統計全体の分布です。分子の正規性は、t統計にt分布を持たせるには不十分です。ただし、指数データの場合は、それほど問題ではありません。

ここに画像の説明を入力してください

n=40n=500n=500

ただし、実際の指数データでは、平均が異なる場合にのみ標準偏差が異なることに注意してください。指数の推定が当てはまる場合、nullの下では、異なる母集団の分散が代替の下でのみ発生するため、異なる母集団の分散について特に心配する必要はありません。したがって、等分散t検定は引き続き問題ありません(この場合、ヒストグラムに表示される上記の優れた近似は、わずかに優れている場合もあります)。


2)ログを取得しても、それを理解できる場合がありますが、

logλ1logλ2λ1λ2

[ログでそのテストを行う場合、その場合は等分散テストを行うことをお勧めします。]

つまり、上記のように、おそらく接続を正当化する1つまたは2つの文を介在させるだけで、参加メトリックのログではなく、参加メトリック自体について結論を書くことができるはずです。


3)他にもできることがたくさんあります!

a)指数データに適したテストを実行できます。尤度比ベースのテストを導き出すのは簡単です。偶然にも、指数データの場合、片側の場合のこの状況に対して、小標本F検定(平均の比率に基づいて)を取得します。一般に、2つのテールを持つLRTは、小さなサンプルサイズの場合、各テールで等しい比率を持ちません。(これはt検定よりも優れた検出力を持っているはずですが、t検定の検出力は非常に合理的である必要があり、サンプルサイズに大きな違いはないと思います。)

b)順列検定を行うことができます-必要に応じてt検定に基づいて行うこともできます。したがって、変化するのはp値の計算だけです。または、ブートストラップベースのテストなど、他のリサンプリングテストを行うこともできます。これには十分な能力がありますが、分布に関連して選択する検定統計量に一部依存します。

c)ランクベースのノンパラメトリック検定(Wilcoxon-Mann-Whitneyなど)を実行できます。分布が異なる場合、スケールファクター(指数関数を含むさまざまな歪んだ分布に適切)だけが異なると仮定すると、スケールパラメーターの比率の信頼区間を取得することもできます。

[そのために、ログスケールで作業することをお勧めします(ログ内の位置シフトはスケールシフトのログです)。p値は変更しませんが、ポイント推定とCI制限を累乗してスケールシフトの間隔を取得できます。]

これも、指数関数的な状況にある場合、かなり良いパワーを持つ傾向がありますが、t検定を使用するほど良くない可能性があります。


ロケーションシフトの代替案のかなり広範なケースセット(たとえば、分散と歪度の両方の不均一性がnullの下にある)を考慮するリファレンスは次のとおりです。

FAGERLAND、MW及びL.サンドビック(2009)、
「不等分散を持つ歪んだ分布のための5つの二サンプル位置テストのパフォーマンス」
現代臨床試験30、490から496まで

一般に、ウェルチU検定(ウェルチが検討したいくつかのテストのうちの1つと、テストした唯一のテスト)を推奨する傾向があります。まったく同じWelch統計を使用していない場合、推奨事項は多少異なる場合があります(おそらくそうではありません)。[分布が指数関数的である場合、ログを取る場合を除き、スケールの代替に関心があることに注意してください...その場合、不均等な分散はありません。]


4
素晴らしい答えです!私は本当にあなたが単一のポストに詰めどのくらいの情報唖然とした
クリスチャン・ザウアー

@Glen_b、これは素晴らしい答えです!どうもありがとうございました。もう1つ質問があります。私のサンプルは同じデータセットからのものです。特性Xのユーザーのサンプルと特性Yのユーザーのサンプルを比較します。ユーザーXのサンプルは約500個、ユーザーYのサンプルは約10000個です。サイズには大きな違いがありますが、形状に大きな違いはないようです(密度と確率のプロットを見て)。とにかくt検定を使用するのは問題でしょうか?
ミレーナアラウージョ14

「サイズの大きな違い」と言うとき、あなたはサンプルサイズ(10000対500)または各グループ内の典型的な値について話しているのですか?(ちなみに、これらは連続または離散ですか?この種のデータの典型的な最小値はどれくらい小さいですか?ログの形状は似ていますか?つまり、私たちが検討しているスケールシフトですか?)
Glen_b -Reinstate Monica 14

1
そのようなデータ用のテーブルを使用した方がよい場合があります。重要な情報は、それが離散的であるだけでなく、ほとんどすべての値が最も少ない数の質問にあるということです。ヒストグラムをプロットする場合は、ぐらつきなしでプロットし、すべての低い値が別々であることを確認します(0、1、2の各バーはそれらを結合しません)。(ほとんどすべてのデータが存在する場合)右側を切り取り、左側を広げると、切り取りを行った場合に右側にあることが明確になります。測定していることと達成しようとしていることに関する情報を含める...(ctd)
Glen_b -Reinstate Monica 14

1
それは議論の下の場合には重要どのくらいの私の答えアドレスの@ScottH一部の1.Cこの明示的ルックス(同様のサンプルサイズで約指数分布)
Glen_b -Reinstateモニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.