プロポーションのコンテキストで多重比較の問題を回避するために順列検定を使用できますか？

9

特定のバイナリの結果を予測するための5つの異なる方法の有効性を評価しています（「成功」と「失敗」と呼びます）。データは次のようになります。

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40

これら5つの方法の中で相対的な優位性を評価するためのテストを行いたいと思います。つまり、メソッドをパフォーマンスの順にメソッド1>メソッド2> ...メソッド5の順に並べたいのです。複数の比較の問題を回避するために、次のように順列テストを実行する予定です。

ステップ1：すべてのデータをプールして、全体のサンプルサイズが114になり、全体で37の成功を収めます。

ステップ2：データをランダムに5つのグループに分割し、対応するサンプルサイズを28、19、24、21、22にします。

手順3：手順2で観察されたPercent_Successの順序がデータの順序と一致している場合は、カウンターを増分します。

手順4：手順2と3を何度も繰り返します（たとえば10000）。

望ましいp値=最終カウンター値/ 10000。

質問：

上記の手順は大丈夫ですか？
上記のテストを実行できるようにするRの要素はありますか？
改善や代替方法の提案があれば役に立ちます。

r multiple-comparisons permutation-test

— sxv
ソース

@whuberおそらくこれをどのように行ったかについて共有するためのRコードがありますか？

— B_Miner 2010年

6

提案された手順はあなたの質問に答えません。これは、帰無仮説の下で、観測された次数が発生する頻度のみを推定します。しかし、そのnullの下では、適切な概算として、すべての次数は等しく可能性が高く、計算により1/5に近い値が生成されます！=約0.83％。それは私たちに何も伝えません。

もう1つの明白な観察：データに基づく順序は4> 5> 3> 2> 1です。それらの相対的な優位性の推定は0.61-0.40 = 21％、0.40-0.21 = 11％などです。

ここで、あなたの質問が、比率の差のどれもが、差がないという帰無仮説の下で偶然に起因する可能性のある範囲に関するものであると仮定します。実際、これらの10個の質問を順列検定で評価できます。ただし、各反復では、全体の順序の1つのグローバルインジケーターではなく、相対的な比率の10のインジケーターを追跡する必要があります。 ${5 \choose 2} = 10$

データについては、100,000回の反復によるシミュレーションで結果が得られます

\begin{array}{ccccc} 5 & 4 & 3 & 2 \\ 1 & 0.02439 & 0.0003 & 0.13233 & 0.29961 \\ 2 & 0.09763 & 0.00374 & 0.29222 \\ 3 & 0.20253 & 0.00884 \\ 4 & 0.08702 \end{array}

$\begin{array}{ccccc} & 5 & 4 & 3 & 2 \cr 1 & 0.02439 & 0.0003 & 0.13233 & 0.29961 \cr 2 & 0.09763 & 0.00374 & 0.29222 & \cr 3 & 0.20253 & 0.00884 & & \cr 4 & 0.08702 & & & \end{array}$

方法4と方法1、2、および3の間の比率の違いは偶然によるものである可能性は低く（推定確率はそれぞれ0.03％、0.37％、0.88％）、他の違いがある可能性があります。方法1と5の違いの証拠（p = 2.44％）があります。したがって、4> 3、4> 2、4> 1の関係に関係する比率の違いはすべて正であると確信できるようです。、そしておそらく5> 1の違いもそうです。

— whuber
ソース

1

それは私のものよりもはるかに良い答えです！質問を正しく読み切れませんでした（特にステップ3）。私は自分の答えを削除することを考えましたが、ベイジアンアプローチの大きな解釈可能性は、それが実際に重要なのはランキングです。

— 2010年

私が正しく理解していることを確認するために-メソッド4と5の相対的な違いを追跡するインジケーターは、0.21より大きい違いが見られるたびに更新されます。

— sxv

@sxvはい、そうです。（まあ、実際には以上の値を使用しました。ネクタイは発生します。重要な結果に等値を含めることは正しいことだと思います。これは、この大きなまたは大きな差が偶然に発生する可能性を評価しているためです。）

— whuber

1

提案されたモンテカルロ順列検定手順は、成功の確率がすべての方法で同じであるという帰無仮説の検定のp値を生成します。しかし、対応する正確な置換テストが完全に実行可能な場合、ここでモンテカルロ置換テストを実行する理由はほとんどありません。それはフィッシャーの正確検定です（まあ、一部の人々は2x2テーブル用にその名前を予約しています。その場合、条件付き正確検定です）。データをStataと-tabi ...に入力したところ、exact-はp = .0067を与えました（比較のために、ピアソンのカイ2乗検定はp = .0059を与えます）。Rの達人がすぐに追加する同等の関数がRにあると確信しています。

ランキングを本当に確認したい場合は、ベイジアンアプローチを使用するのが最適です。これは、各メソッドが本当に最高、2番目、3番目に最適である確率として単純な解釈を提供できるためです。もちろん、それはあなたがあなたの確率に前もって置くことを要求する代償を払って来ます。ランクの最尤推定値は、単に観測された順序ですが、私が知る限り、頻繁に解釈される方法で、頻度主義のフレームワークでランキングの不確実性を定量化することは困難です。

複数の比較については言及していませんが、これがどのように行われるのかわかりません。

— ワンストップ
ソース

2

フィッシャーの正確確率検定とピアソンのカイ2乗検定では、5つの方法すべてが、少なくとも1つが他の方法より優れているという選択肢に対して同等に効果的であるという帰無仮説を検定します。p値は、nullが拒否されたことを示しています。それで、他のメソッドよりも実際に優れているメソッドを見つけたい場合は、10のペアごとの比較を行う必要はありませんか？

— sxv 2010年