回答:
しかし、通常のパラメトリックテストで行うように、95%の信頼区間をどのように生成することもできますか?
これは、リサンプリングテストから間隔を生成する方法の1つですが、信頼間隔と見なすことが常に適切であるとは限りません。特定の例として、平均の2標本差の検定を行います。2番目のサンプルを(正または負にすることができます)だけシフトすることを検討してください。次に、レベルでのテストによる非棄却につながる値のセットを、平均の差の名目上の信頼区間として使用できます。
一部の作成者(例:[1]、p364 et seq、[2])は、この方法で作成された間隔(テストによって拒否されないパラメーター値)を協音間隔と呼んでいます -これは信頼間隔よりも良い名前です(ただし多くの人々はその違いを単に無視します;たとえば、Cox&Hinkleyはこれらの信頼区間と呼んでいると思います)このアプローチは必ずしも望ましいカバレッジを持つ区間を与えるとは限らないためです(多くの状況でそれがそうであることがわかります)。名前は、間隔が何を伝えているか(データと一致する値の間隔)について何かを伝えます。
Gelmanは、信頼区間をここで普遍的に考慮することがなぜ問題になることがあるかについての議論を含みます。
ただし、特定の前提条件のもとで(シミュレーションによって)カバレッジを探索することは難しくありません。また、ブートストラップ間隔を「信頼区間」と呼ぶ人も少なくありません(要求されたカバレッジのように見えない場合でも)。
2つのサンプルの平均差のケースでそれを行う方法の詳細は、[3]で説明されています。これらはランダム化信頼区間と呼ばれ、正確である場合に主張が行われます(私はまだ主張していません)。 tを評価しようとした)。
順列が1000の場合、p = 0.05付近の不確実性は約±1%です。
この不確実性はどのようにして得られるのでしょうか。
推定p値は、直線的な二項比率です。したがって、他の二項比率と同じ標準誤差ます。
したがって、および場合、観測された比率の標準誤差は約です。 CIであろう [あるいは、程度であるを超えるビットの根底にあるp値の信頼区間に対応する標準誤差各側面、 ]
したがって、少なくとも大まかに言えば、不確実性は「約1%」であると言えます。
-
[1] Kempthorne and Folks(1971)、
確率、統計、およびデータ分析、
アイオワ州立大学出版局
[2] LaMotte LRおよびVolaufováJ、(1999)、
「Consonance Intervalsを介した予測間隔」、
Royal Statistical Societyのジャーナル。シリーズD(統計家)、Vol。48、3号、419-424ページ
[3] Ernst、MD(2004)、
「順列法:正確な推論の基礎」、
Statistical Science、Vol。19、No。4、676〜685