平均のロバストt検定


17

ランダム変数に対して、軽度から中程度のスキューとランダム変数の尖度の影響を受けるローカル代替に対して、ヌルをテストしようとしています。「ロバスト推定と仮説検定入門」でのウィルコックスの提案に従って、トリミングされた平均値、中央値、および位置のM推定量(Wilcoxの「ワンステップ」手順)に基づいた検定を見てきました。これらの堅牢なテストは、歪んでいないがレプトクルティックな分布でテストする場合、パワーの点で標準のt検定よりも優れています。E [ X ] > 0 XE[X]=0E[X]>0X

ただし、偏った分布でテストする場合、これらの片側検定は、分布が左スキューであるか右スキューであるかに応じて、帰無仮説の下で非常にリベラルまたは保守的すぎます。たとえば、観測値が1000の場合、中央値に基づくテストでは、実際には、公称5%レベルで、時間の約40%が拒否されます。この理由は明らかです。歪んだ分布では、中央値と平均値はかなり異なります。しかし、私のアプリケーションでは、中央値ではなく、平均値をテストする必要があります。

平均を実際にテストするt検定のより堅牢なバージョンはありますが、スキューと尖度の影響を受けませんか?

理想的には、この手順は、スキューのない、尖度の高いケースでもうまく機能します。「1ステップ」テストはほぼ十分で、「bend」パラメーターは比較的高く設定されていますが、スキューがない場合のトリム平均テストよりも強力ではなく、スキュー下のリジェクトの公称レベルを維持するのに問題があります。

背景:中央値ではなく平均値を本当に気にする理由は、テストが金融アプリケーションで使用されるからです。たとえば、ポートフォリオに正の期待対数収益があるかどうかをテストする場合、ポートフォリオに投資すると、すべての収益(平均サンプル数)が発生するため、平均は実際に適切です中央値の重複。つまり、私は本当にRVからのドローの合計に関心があります。n XnnX


ウェルチt検定の使用を禁止する理由はありますか?この質問への私の答え(stats.stackexchange.com/questions/305/…)を見てください。ここでは、非正規性と不均一分散の場合のウェルチの使用を提唱する論文を参照しています。
ヘンリック

1
問題は、2サンプルテストではなく1サンプルテストが必要なことです。ではなく、ヌルのテストしています。Kubinger et。を調べます。他、論文(Ich kann schlecht Deutsche)。E [ X 1 ] = E [ X 2 ]E[X]=μE[X1]=E[X2]
みすぼらしいシェフ

明確にしてくれてありがとう。この場合、Kubingerの論文はあまり役に立ちません。ごめんなさい。
ヘンリック

回答:


5

なぜノンパラメトリックテストを見ているのですか?t検定の仮定に違反していますか?すなわち、順序または非正常なデータと不変の分散ですか?もちろん、サンプルが十分に大きい場合は、サンプルに正規性がないにもかかわらず、より強力なパラメトリックt検定を正当化できます。同様に、不等分散が懸念される場合は、パラメトリック検定に修正が加えられ、正確なp値が得られます(ウェルチ修正)。

それ以外の場合、結果がt検定と比較されることは、仮定を満たさない場合にt検定の結果にバイアスがかかるため、これを実行する良い方法ではありません。Mann-Whitney Uは、それが本当に必要な場合、適切なノンパラメトリックな代替手段です。(仮定が満たされているため)正当にt検定を使用できる場合に、ノンパラメトリック検定を使用している場合にのみ電力を失います。

そして、もう少し背景については、ここに行きます...

http://www.jerrydallal.com/LHSP/STUDENT.HTM


データは間違いなく正常ではありません。過剰な尖度は10〜20のオーダーであり、スキューは-0.2〜0.2のオーダーです。1サンプルのt検定を行っているので、「不等分散」またはU検定に関してあなたに従うかどうかわかりません。
みすぼらしいシェフ

「パラメトリックテストを使用する」というアドバイスを受け入れます。それは私の質問を正確に解決するわけではありませんが、私の質問はおそらくあまりにもオープンエンドでした。
みすぼらしいシェフ

12

グループの平均が異なるかどうかを実際にテストする場合(グループの中央値やトリムされた平均などの差をテストするのではなく)、異なる仮説をテストするノンパラメトリックテストを使用したくないことに同意します。

  1. 一般に、t検定からのp値は、残差の正規性の仮定の緩やかな逸脱を考慮すると、かなり正確になる傾向があります。この堅牢性に関する直観を得るには、このアプレットをチェックしてください:http : //onlinestatbook.com/stat_sim/robustness/index.html

  2. 正規性の仮定の違反についてまだ懸念がある場合は、bootstrapすることをお勧めします。例:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JenniferThompson/ms_mtg_18oct07.pdf

  3. 歪んだ従属変数を変換して、正常からの逸脱に関する問題を解決することもできます。


2
+1の素晴らしく明確な答え。ジェロミー、ポイント3について質問できますか?データ変換の背後にある理由は理解していますが、それを行うことについて常に何かが私を悩ませました。変換されたデータのt検定の結果を、変換されていないデータ(t検定の実行が「許可されていない」場合)に報告することの妥当性は何ですか?言い換えると、データがログ変換などのときに2つのグループが異なる場合、生データもどのベースで異なると言えますか?心の中で、私は統計学者ではないので、たぶん私は絶対に愚かなことを言っただけです:)
nico

2
@nico結果をどのように報告するか、どう考えるかはわかりませんが、表示したいのがXとYの一部であるmu_X!= mu_Yである場合、すべてのX_i <X_j、log( X_i)<log(X_j)およびすべてのX_i> X_j、log(X_i)> log(X_j)。そのため、ランクで動作するノンパラメトリックテストの場合、データの変換は結果に影響しません。このことから、何らかのテストでmu_log(X)!= mu_log(Y)が示された場合、mu_X!= mu_Yであると想定できます。
-JoFrhwld

答えてくれてありがとう。確かに、t検定は、緩やかに歪んだ/尖度のある入力の下で名目上のタイプIレートを維持しているようです。しかし、私はもっと力のあるものを望んでいました。re:2、Wilcox ' trimpbおよびを実装trimcibtしましたが、少なくとも私の好みでは、電源テストを行うには少し遅すぎます。日時:3、私はこの方法を考えていましたが、未変換データの平均に興味があります(つまり、2つのRVをt検定と比較していません。その場合、単調変換は@JoFrhwldが指摘したように、ランクベースの比較。)
shabbychef

2
@nico残差の母集団分布が2つのグループで同じ場合、生の母集団に差があるときはいつでも、順序を維持する変換のグループ平均にも違いがあることを想像します。ただし、p値と信頼区間は、生データを使用しているか変換データを使用しているかによってわずかに変化する傾向があります。一般に、変数を理解するための有意義なメトリックと思われる場合は、変換を使用することを好みます(リヒタースケール、デシベル、カウントのログなど)。
ジェロミーアングリム


0

コメントに対する評判が十分ではないので、答えとして:この計算を見てください。これは素晴らしい答えになると思います。簡単に言うと:

漸近的パフォーマンスは、尖度の形よりも歪度の形で正規性からの偏差にはるかに敏感です...したがって、スチューデントのt検定は歪度に敏感ですが、重い尾に対して比較的堅牢であり、テストを使用するのが合理的ですt検定を適用する前の代替スキューに向けられた正規性。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.