独立したサンプルのt検定を計算するときにブートストラップが必要なのはなぜですか?(ブートストラップt検定を正当化、解釈、および報告する方法)


8

2つの条件があり、2つの条件のサンプルサイズが非常に小さいとします。最初の条件で14個の観測しかなく、他の11個の観測があるとしましょう。t検定を使用して、平均差が互いに有意に異なるかどうかを検定します。

最初に、t検定の正規性の仮定について少し混乱しています。そのため、完全にブートストラップを取得できません。t検定の前提は、(A)データが正規母集団からサンプリングされている、または(B)サンプル分布がガウス特性を持っているということですか?(B)の場合、それは実際には仮定ではありませんよね?データのヒストグラムをプロットして、それが正常かどうかを確認できます。サンプルサイズが小さい場合でも、サンプル分布が正常かどうかを確認するのに十分なデータポイントがありません。

これがブートストラップの出番だと思います。ブートストラップを実行して、サンプルが正常かどうかを確認できますよね?最初、ブートストラップは常に正規分布になると思っていましたが、そうではありません(ブートストラップリサンプリングを使用して、データセットの分散の信頼区間を計算できますか? statexchange statexchange)。したがって、ブートストラップを行う理由の1つは、サンプルデータの正規性をより確実にすることです。

この時点で私は完全に混乱します。Rでt.test関数を使用してt検定を実行し、ブートストラップされたサンプルベクトルを2つの独立したサンプルとして配置した場合、t値は非常に重要になります。ブートストラップt検定を正しく行っていませんか?すべてのブートストラップが実行しているため、t値を大きくするだけなので、すべてのケースでこれが発生するのではないでしょうか。ブートストラップされたサンプルに対してt検定を実行しませんか?

最後に、ブートストラップで信頼区間を計算することと、元のサンプルで信頼区間を計算することの利点は何ですか?これらの信頼区間から、元のサンプルデータの信頼区間では何がわかりませんか?

(A)ブートストラップを使用するとt値がより重要になる理由がわからない(B)独立したサンプルのt検定を実行するときにブートストラップを使用する正しい方法がわからない、(C)わからない独立したt検定の状況でのブートストラップの正当化、実行、および結果を報告する方法。


偶然にも、ブートストラップされたサンプルベクトルには、元のサンプルベクトルよりも多くのサンプルポイントがありますか?その場合、元のデータの代わりにt検定でブートストラップベクトルを使用すると、サンプルサイズが人為的に増加します。これは、p値を任意に小さくすることができますが、意味がなく、不当です。
amoeba 14

回答:


15

あなたの投稿にはいくつかの誤解があります(それらのいくつかは一般的であり、あなたが言っている人が誤った情報を伝えているだけだったので、あなたは間違ったことを知らされたかもしれません)。

まず、ブートストラップはサンプルサイズが小さい場合の救済策ではありません。ブートストラップは、母集団が正常である場合でも、サンプルサイズが小さい場合、実際には公平性がかなり低くなります。 この質問、回答、および議論は、その点でいくつかの光を放つはずです。また、こちらの記事は、詳細と背景について説明しています。

t検定とブートストラップはどちらも、標本統計量分布に基づいています。これは、検定統計量の分布と同じです。

正確なt検定は、理論と、データを生成する母集団/プロセスが正常であるという条件に基づいています。t検定は、正規性の仮定に対してかなりロバストです(検定のサイズに関する限り、検出力と精度は別の問題になる可能性があります)。そのため、場合によっては、「通常十分」と「大きなサンプルサイズ」の組み合わせが意味します。標本分布は、t検定が妥当な選択であるという通常に「十分に近い」こと。

ブートストラップは、通常の母集団を仮定する代わりに、サンプルCDFを母集団の推定として使用し、真のサンプリング分布を計算/推定します(通常はシミュレーションによって)(これは正常であるかもしれませんが、そうである必要はありません)。サンプルが母集団を表すという妥当な仕事をしている場合、ブートストラップはうまく機能します。しかし、サンプルサイズが小さい場合、サンプルが母集団を表すのに不十分であり、それらの場合、ブートストラップメソッドは粗末です(上記のシミュレーションとペーパーを参照)。

t検定の利点は、すべての仮定が成り立つ(または近い)場合にうまく機能することです(実際には、これが最も均一な最も強力な検定だと思います)。不利な点は、仮定が真でない(そして真に近くない)場合にうまく機能せず、他の仮定よりも仮定に大きな違いが生じる場合があることです。また、t検定理論は、トリミングされた平均値、標準偏差、分位数など、一部の対象のパラメーター/統計には適用されません。

ブートストラップの利点は、パラメトリックな方法で必要とされる多くの仮定なしにサンプリング分布を推定できることです。これは、平均以外の統計、および他の仮定が成り立たない場合(たとえば、2つのサンプル、不均一な分散)で機能します。ブートストラップの欠点は、他の仮定の利点がないため、母集団を表すサンプルに大きく依存することです。ブートストラップは正規性を与えるものではなく、母集団についての仮定を必要とせずに、サンプリング分布(通常のように見えても、そうでない場合でも機能する)を提供します。

母集団が正常である(または少なくとも十分に正常である)と仮定することが合理的であるt検定の場合、t検定は(2のうち)最良です。

正常性がなく、サンプルが少ない場合、t検定もブートストラップも信頼できません。2つのサンプルの場合、帰無仮説のもとで等しい分散(等しい分散を含む)を仮定する場合は、順列検定がうまく機能します。これは、無作為化実験を行うときに非常に合理的な仮定ですが、2つの別々の母集団を比較するときではない場合があります(ただし、2つの母集団が異なるスプレッド/形状を持っていると思われる場合、平均の検定は最も興味深い質問ではありません。開始するのに最適な場所)。

巨大なサンプルサイズでは、大規模なサンプル理論はt検定とブートストラップの両方に利益をもたらし、平均を比較してもほとんどまたはまったく違いがありません。

中程度のサンプルサイズでは、ブートストラップは適切に機能し、t検定手順に必要な仮定を行うことを望まない場合に適しています。

重要なことは、検討しているさまざまな手順に必要な仮定と条件を理解し、それらの条件とそれらからの逸脱が分析にどのように影響するか、およびデータを生成した母集団/プロセスがそれらの条件に適合すると信じる方法を検討することですシミュレーションは、偏差がさまざまな方法にどのように影響するかを理解するのに役立ちます。すべての統計手順には条件と仮定があることを覚えておいてください(SnowsCorrectlySizedButOtherwiseUselessTestOfAnythingの可能な例外はありますが、そのテストを使用すると、人々はあなたについて仮定を立てます)。


1
X¯

1
@ssdecontrol、漸近正規性/ CLTは、サンプルサイズが十分に大きくなると、サンプリング分布が通常に十分に近くなることを意味しますが、どれほど大きいかはわかりません。一部の母集団では、サンプルサイズ6で十分ですが、他の母集団では、サンプルサイズ10,000では十分ではありません。人口/プロセスがどのようなものかを理解し、代替案を検討する必要があります。
Greg Snow

@GregSnowこれについてはまだ疑問に思っています。「Rでt.test関数を使用してt検定を実行し、ブートストラップされたサンプルベクトルを2つの独立したサンプルとして配置した場合、t値は非常に重要になります。ブートストラップされたt検定を正しく実行していますか?すべてのブートストラップが実行されているため、t値が大きくなるだけなので、すべてのケースでこれが発生するわけではありません。ブートストラップされたサンプルに対してt検定を実行しないのですか?」
Herman Toothrot

@HermanToothrot、ブートストラップされたサンプルをt検定関数に入れると言うとき、何をしているのか明確ではありません。しかし、その説明で想像できるほとんどのことは間違っています。サンプルサイズが実際よりもはるかに大きい(より重要度が高い)ことをコンピューターに納得させているようです。ブートストラップをよく理解するには、コメントや回答に収まる以上のものが必要です。あなたは本当にブートストラップをカバーするクラスを取るか、少なくともトピックに関する本を読むべきです。
グレッグスノー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.