ブートストラップテストを実行して2つのサンプルの平均を比較する方法

2つの大きく歪んだサンプルがあり、t統計を使用して平均を比較するためにブートストラップを使用しようとしています。

それを行う正しい手順は何ですか？

私が使用しているプロセス

これが正規分布ではないことがわかっている場合、最終ステップで元のデータまたは観測されたデータの標準誤差を使用することの妥当性を心配しています。

私の手順は次のとおりです。

ブートストラップ-交換でランダムにサンプリング（N = 1000）
各ブートストラップのt統計を計算してt分布を作成します： $T （ b ） = \frac{（ {\bar{バツ}}_{b 1} - {\bar{バツ}}_{b 2} ） - （ {\bar{バツ}}_{1} - {\bar{バツ}}_{2} ）}{\sqrt{σ_{バツ b 1}^{2} / n + σ_{バツ b 2}^{2} / n}}$ $T(b) = \frac{(\overline{X}_{b1}-\overline{X}_{b2})-(\overline{X}_1-\overline{X}_2) }{\sqrt{ \sigma^2_{xb1}/n + \sigma^2_{xb2}/n }}$
t 分布のおよびパーセンタイルを取得してt信頼区間を推定する $\alpha/2$ $1-\alpha/2$
信頼区間を取得するには：

$C 私_{L} = （ {\bar{バツ}}_{1} - {\bar{バツ}}_{2} ） - T_C 私_{L} 。 S E_{o r 私 g 私 n a l}$ $CI_L = (\overline{X}_1-\overline{X}_2) - T\_{CI_L}.SE_{original}$ $C 私_{うん} = （ {\bar{バツ}}_{1} - {\bar{バツ}}_{2} ） + T_C 私_{うん} 。 S E_{o r 私 g 私 n a l}$ $CI_U = (\overline{X}_1-\overline{X}_2) + T\_{CI_U}.SE_{original}$ where $S E = \sqrt{σ_{バツ 1}^{2} / n + σ_{バツ 2}^{2} / n}$ $SE = \sqrt{ \sigma^2_{X1}/n + \sigma^2_{X2}/n }$
信頼区間がどこにあるかを見て、平均に有意な差があるかどうかを判断します（つまり、ゼロ以外）

Wilcoxonのランクサムも調べましたが、分布が非常に歪んでいるため（たとえば、75番目の== 95番目のパーセンタイル）、あまり合理的な結果は得られません。このため、ブートストラップされたt検定をさらに調査したいと思います。

だから私の質問は：

これは適切な方法論ですか？
かなり歪んでいることがわかっている場合、観測データのSEを使用することは適切ですか？

重複の可能性：ブートストラップテストまたはノンパラメトリックランクベーステストのどの方法が推奨されますか？

hypothesis-testing t-test bootstrap

— CatsLoveJazz
ソース

サンプルの大きさは？

— マイケルM 14

@マイケルメイヤー800年頃

— CatsLoveJazz 14

stats.stackexchange.com/questions/189587

— amoebaによると、

私は通常のブートストラップテストをするだけです：

データのt統計を計算して保存する
帰無仮説が真になるようにデータを変更します。この場合、グループ1のグループ1の平均を減算し、全体の平均を加算し、グループ2に対して同じことを行います。これにより、両方のグループの平均が全体の平均になります。
このデータセットから、おそらく20,000程度のブートストラップサンプルを取得します。
これらの各ブートストラップサンプルでt統計を計算します。これらのt統計の分布は、帰無仮説が真である場合の、歪んだデータのt統計のサンプリング分布のブートストラップ推定です。
観測されたt統計値以上のブートストラップt統計値の割合は、値の推定値です。あなたはを見て、少し良く行うことができますより大きいか、観測t統計量に等しい、ブートストラップt値の数で割った値ブートストラップ標本の数。ただし、ブートストラップのサンプル数が多い場合、差は小さくなります。 $p$ $($ $+1)$ $($ $+1)$

詳細については、以下をご覧ください。

AC Davison and DV Hinkley（1997）Bootstrap Methods and their Applicationの第4章。ケンブリッジ：ケンブリッジ大学出版局。
Bradley Efron and Robert J. Tibshirani（1993）An Introduction to the Bootstrapの第16章。ボカラトン：チャップマン＆ホール/ CRC。
ブートストラップ仮説検定に関するウィキペディアのエントリ。

— マールテン・ブイ
ソース

これは基本的にImが行っていることですが、元の/観測されたt統計がブートストラップされたt統計の時間の割合を見ることになります。最初のインスタンスで大きく歪んだデータでt検定をしても構いませんが、これが私がブーストしたい理由の1つです。

— CatsLoveJazz 14

技術的には、ブートストラップテストにはテスト統計が必要なだけなので、問題はありません。実質的に、t検定は平均を比較し、歪んだデータの中央値は平均よりも有意義であることがよくあります。したがって、平均値ではなく中央値を比較するテストの方が意味があります。ただし、それはあなたの帰無仮説に依存します。これはあなたの選択であり、あなただけの選択です。

— マールテンビュイ14

おかげで、他のすべての出力はこの形式になっているので、テストしたいという意味です。

— CatsLoveJazz 14