p値と信頼区間の不一致

これはSPSSのt検定に関する質問です。

2つのグループがあり、2つの平均が等しいかどうかをテストしたいと思います。ブートストラップでt検定を使用しています。最終的に、p値<0.005が得られました。これにより、2つの母集団の平均は等しいという帰無仮説が却下されますが、私の場合、ゼロは1000サンプルに基づく95％BCaブートストラップ信頼区間内にあります。。

平等な平均の仮説はまだ却下されますか？

— リザ・ビエイラ
ソース

明確にするために、現在p値と95％CIを比較しているブートストラップt検定を実施しましたか、または標準t検定（ブートストラップではない）を実行してp値を取得し、 CI？

— ローズハートマン2017

回答:

警告： この回答は、質問がブートストラップp値とCIの解釈に関するものであることを前提としています。従来のp値（ブートストラップされていない）とブートストラップCIの比較は、別の問題になります。

従来の（ブートストラップされていない）t検定では、95％CIと有意性の.05カットオフに対するp値の位置は常に同じことを教えてくれます。これは、どちらも同じ情報に基づいているためです。自由度のt分布と、サンプルで観察された平均誤差と標準誤差（または、2標本のtの場合は、平均と標準誤差の差）テスト）。CIが0と重複しない場合、p値は必ず<.05になります---もちろん、ソフトウェアのバグや、テストの実装または解釈にユーザーエラーがない限り。

ブートストラップされたt検定では、CIとp値は両方とも、ブートストラップによって生成された経験的分布から直接計算されます。p値は、ブートストラップされたグループの差のうち、元の観測された差よりも極端に大きいパーセントです。95％CIは、ブートストラップされたグループの差の中間の95％です。p値とCIがブートストラップ検定での有意性について意見を異にすることは不可能ではありません。

帰無仮説を受け入れるか拒否しますか？

ブートストラップテストのコンテキストでは、p値（CIと比較して）は仮説テストの精神をより直接的に反映するため、その値に基づいてnullを拒否するかどうかを決定することが最も理にかなっています。希望するアルファ（通常は.05）。したがって、あなたのケースでは、p値は.05未満ですが、95％CIにはゼロが含まれているため、帰無仮説を拒否することをお勧めします。

これらはすべて、「有意性」が実際にどの程度重要であるか、および帰無仮説の有意性検定が実際にツールにとってそれほど有用であるかどうかについての大きなアイデアをスキップします。簡単に言えば、私は常に有意性検定分析を効果サイズの推定で補完することをお勧めします（2サンプルのt検定の場合、最良の効果サイズ推定はおそらくコーエンのdになります）。これは、結果の理解に役立ついくつかの追加のコンテキストを提供します。

— ローズハートマン
ソース

これは素晴らしい答え（+1）ですが、OPがNullを受け入れるか拒否するかについてOPがどのようにアプローチするかに関するいくつかのアドバイスは、OPの最後の質問に対する答えをまとめます。

— アッシュ2017

@アッシュありがとう！中心的な質問に真正面から触れなかったのはあなたの言うとおりです。それを改善するために編集します。

— ローズハートマン

「2標本のt検定の場合、推定される最良の効果サイズはおそらくコーエンのdになります」これはブートストラップに固有のものですか？通常のt検定について考えるので、信頼区間は、テストした実際のスケールでの効果サイズに関する最良の情報を提供します。

— David Ernst

コーエンのdは、2つのグループの違いに対するものです。ブートストラップするかどうかは関係ありません。CIは、サンプルサイズに依存するため、通常、「効果サイズ」の推定値とは見なされません（例：en.wikipedia.org/wiki/…： "t検定統計とは異なり、効果サイズは母集団パラメーターの推定を目的としており、影響を受けませんサンプルサイズで。」）おそらく、あなたが不思議に思っているのは、標準化された効果のサイズと標準化されていない効果のサイズの見積もりですか？2つのグループの標準化されていない効果サイズは、平均間の生の違いにすぎません。

— ローズハートマン

どうもありがとう！ブートストラップt検定のコンテキストでのp値とCIについての説明は非常に役に立ちました。あなたが示唆するように、私はコーエンのdを決定しました。これは私の結果を理解するのに非常に役立つ統計です。

— Liza Vieira

帰無仮説のp値が0.05より小さい場合、帰無仮説でゼロであると想定しているパラメーターの0.05の信頼区間にゼロを含めないでください。これは同じことです。したがって、バグがあるか、同じ仮説をテストしません。

編集、他の回答と以下のコメントが正しく示しているように、これは完全な話ではありません。ただし、グループの平均が異なる（p <0.005）ことを示し、他のテストが棄却しない（p> 0.05）ことを1つのテストが示している場合、おそらくテストは実際に異なることをチェックしていると思います。

理論的には、この違いは無症候性が原因である可能性がありますが（ブートストラップは有限サンプルの近似ですが、他のテストは正規性の仮定に基づく近似です）、その違いは驚くほど大きいです。それは驚くほど大きいと私は主張します、そしてそれで何が起こっているかを理解することなしに、あなたはまだ結論を出すべきではありません。ちなみに、ここに質問を投稿することで、それもまさにあなたがやっていることです。多分あなたは数字を共有して、この興味深い質問をもう少し具体的にすることができます。

— Gijs
ソース

同意しません。ブートストラップされた信頼区間は、t検定の結果と完全に異なる種類の手順であるため（この場合、グループ平均の違いに基づく）、追跡されない場合があります。特に、「バイアス補正され、加速されたブートストラップ信頼区間が作成された場合、元の推定値（つまり、この場合はグループ平均の差）の周りの非対称信頼区間などが発生する可能性があります。

— IWS 2017