ノンパラメトリックブートストラップのp値と信頼区間


11

環境

これはこの質問にいくぶん似ていますが、完全に重複しているとは思いません。

ブートストラップ仮説検定の実行方法に関する指示を探すとき、通常、信頼区間には経験分布を使用しても問題はないが、p-値。例として、この質問に対する承認済みの回答をご覧ください。インターネットでの一般的な検索では、ほとんど同じような答えが見つかるようです。

経験分布に基づくp値を使用しない理由は、ほとんどの場合、変換不変性がないためです。

短い例を挙げましょう。コインがあり、片側テストを実行して、ヘッドの頻度が0.5より大きいかどうかを確認します

試行を実行し、頭を取得します。この検定の真のp値は、です。n=20k=14p=0.058

一方、20ヘッドのうち14ヘッドをブートストラップする場合、およびの二項分布から効果的にサンプリングします。0.2を差し引いてこの分布をシフトすると、得られた経験的分布に対して0.7の観測値をテストすると、かろうじて有意な結果が得られます。n=20p=1420=0.7

この場合、差異は非常に小さくなりますが、テストした成功率が1に近づくと大きくなります。

質問

さて、私の質問の真のポイントに行きましょう。まったく同じ欠陥が信頼区間にも当てはまります。実際、信頼区間が指定された信頼水準持つ場合、帰無仮説のもとでパラメーターを含まない信頼区間は、有意水準で帰無仮説を棄却することと同等です。α1α

経験的分布に基づく信頼区間が広く受け入れられ、p値が受け入れられないのはなぜですか?

より深い理由はありますか、それとも人々は信頼区間でそれほど保守的ではありませんか?

この答えでピーター・ダルガードは私の議論に同意するように見える答えを出します。彼は言う:

この推論の行については特に問題はなく、少なくともCIの計算ほど悪くはありません。

どこから来たのですか?その方法でp値を生成することは少し悪いことを意味しますが、要点については詳しく説明しません。

最終的な考え

また、EfronとTibshiraniによるブートストラップの概要では、適切な帰無仮説分布の下で生成されない限り、p値ではなく、信頼区間に多くのスペースを費やしています。ただし、順列検定に関する章の信頼区間とp値。

リンクした最初の質問にも戻りましょう。Michael Chernickの答えには同意しますが、経験的ブートストラップ分布に基づく信頼区間とp値の両方は、いくつかのシナリオでは等しく信頼できないと彼は主張しています。間隔が適切であると多くの人が言う理由を説明していませんが、p値はそうではありません。


ブートストラップCIを使用して、いつ、どのように仮説を承認/却下できるかを明確にすることに非常に興味があるので、この質問の報奨金を開始します。おそらく、質問を言い換えて再フォーマットして、より簡潔で魅力的なものにすることができますか?よろしくお願いします!
Xavier Bourret Sicotte

ほとんどの人は、次の仮定が当てはまる場合、仮説検定にCIを使用しても問題がないことに同意すると思います。検定統計量の対称分布、重要な検定統計量、CLTの適用、迷惑パラメータがない、または少ないなど。しかし、統計量が奇妙であるか、極めて重要であると証明されていません。これが私が取り組んでいる実際の例です。たとえば、比率統計の75パーセンタイル間の2つのサンプル差(2つの合計の比率)
Xavier Bourret Sicotte

単純な答えは、帰無仮説の下でサンプリングする方法が明確であるというだけではないので、明らかにより良い代替方法がありますか?ブートストラップ下でのサンプリングは、一般に経験的分布の下で行われるため、真のデータ生成メカニズムであるため、nullの下でのサンプリングだけでなく、使用すべきではありません。ブートストラップされたCIは、真のデータ生成メカニズムの下でサンプリング分布を反転させることでわかります。確かにこのCIはうまく機能しない可能性がありますが、Dalgaardが言ったように、それを修正する方法は必ずしも明白ではありません。
jsk

経験的分布は、真のデータ生成メカニズムの近似にすぎないことを明確にする必要があります。それが真実を表していない程度は、未知の方向でブートストラップされたCIに悪影響を及ぼし、95%未満のカバレッジにつながります。
jsk

1
テストが平均の差である場合、ヌルの下でのサンプリングは明らかですが、多くの場合、ヌルを再現する方法は明らかではありません...たとえば、ヌルは、2つの比率の75パーセンタイルが同じであることです...方法それを得るために、各サンプルの比率の分子と分母をシフトしますか?また、比率のコンポーネントをシフトすると、実際にヌルが再現されていることをどのように確認できますか?
Xavier Bourret Sicotte

回答:


3

@MichaelChernick がリンクされた質問への彼の回答に関するコメントに応じて言ったように:

信頼区間と仮説検定の間には、一般に1-1の対応があります。たとえば、モデルパラメーターの95%信頼区間は、そのパラメーターの値に関する対応する5%レベルの仮説検定の非棄却領域を表します。人口分布の形についての要件はありません。明らかにそれが一般に信頼区間に適用される場合、それはブートストラップ信頼区間に適用されます。

したがって、この回答は2つの関連する問題に対処します:(1)質問で提案されているように、ブートストラップの結果の表示がp値ではなく信頼区間(CI)を指定する頻度が高いように見える理由、および(2)両方のp値ブートストラップによって決定されたCIは信頼性が低いと疑われるため、代替アプローチが必要です。

最初の問題に関するこの質問の主張を具体的に裏付けるデータはわかりません。おそらく実際には、多くのブートストラップから導出された点推定は、テスト決定境界から離れている(または少なくともそうであるように思われる)ため、対応する帰無仮説のp値にはほとんど関心がなく、点推定自体およびその可能性のある変動の大きさのいくつかの合理的な尺度。

2番目の問題に関しては、多くの実用的なアプリケーションが「テスト統計の対称的な分布、重要なテスト統計、CLTの適用、迷惑パラメータがないか少ない」などを含み(上記の@XavierBourretSicotteによるコメントのように)、ほとんど困難はありません。次に問題となるのは、これらの条件からの潜在的な逸脱を検出する方法と、それらが発生したときにそれらに対処する方法です。

理想的な動作からのこれらの潜在的な逸脱は数十年前から高く評価されており、それらに対処するために初期にいくつかのブートストラップCIアプローチが開発されました。Studentizedブートストラップは重要な統計を提供するのに役立ち、BCaメソッドは、ブートストラップからより信頼性の高いCIを取得するという点でバイアスと歪度の両方を扱います。ブートストラップCIを決定する前にデータの分散安定化変換を行ってから、元のスケールに逆変換することも役立ちます。

公正なコインから20のトスから14のヘッドからサンプリングするこの質問の例は、BCaメソッドのCIを使用してうまく処理されます。R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

他のCIの推定値は、20回のトスあたり10頭という人口値の非常に近い、または端にあるという問題を提起しています。BCa CIは歪度(偶数オッズから離れた2項サンプリングによって導入されたもの)を考慮しているため、人口値10が適切に含まれています。

しかし、これらのソリューションを利用する前に、理想的な動作からのそのような逸脱を探す必要があります。多くの統計的実践と同様に、アルゴリズムにプラグインするだけでなく、実際にデータを確認することが重要になる場合があります。たとえば、バイアスブートストラップ結果のCIに関するこの質問は、上記のコードに示されている最初の3つのCIの結果を示していますが、BCa CIは除外されています。その質問で示された分析を再現してBCa CIを含めようとしたところ、結果が得られました。

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

ここで、「w」はバイアス補正に関与しています。調査中の統計には最大値が固定されており、ブートストラップされたプラグインの推定値も本質的に偏っていました。このような結果が得られた場合、ブートストラップされたCIの根底にある通常の仮定に違反していることを示しているはずです。

重要な量を分析することで、このような問題を回避できます。経験的分布は厳密に重要な有用な統計を持つことができないとしても、合理的にできるだけ近くなることが重要な目標です。この回答の最後の数段落はブートストラップを介して統計(データ変換後の可能性があります)がピボットに近いかどうかを推定するピボットプロットや、計算コストは​​高いが決定的なダブルブートストラップのような、さらなる支援へのリンクを提供します。


edmに感謝!CIと仮説テストの間に1対1の関係がある場合、なぜブートストラップテストでは通常、データセットをシフトしてnullを再現するのですか?そうすることで、たとえば、差の分布のCIを計算することで得られる結果とは異なる結果が得られませんか?
Xavier Bourret Sicotte

@XavierBourretSicotte「ブートストラップテストでは通常、データセットをシフトしてnullを再現する必要がある」というのは正しくないと思います。各ブートストラップサンプルは、基になる母集団を表すために手元にあるサンプルを使用して、元のサンプリング/実験を複製する試みです。ただし、問題の統計が極めて重要でない場合、ブートストラップされたサンプルで開発されたCIは、基になる母集団で開発されたCIを表しません。そのため、BCaまたは他のアプローチを使用して、統計値分布を、nullの下であったであろう方向に修正する必要があります。
EdM
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.