正規分布確率変数の比率の有意差をテストします


9

関連する変数の比率分析どのように2つの正規分布の変数の比をパラメータ化するために、または1つの逆?

4つの異なる連続ランダム分布からのサンプルがいくつかあるとします。これらのサンプルはすべてほぼ正常であると想定できます。私の場合、これらは暗号化ありと暗号化なしの2つの異なるファイルシステム(たとえば、ext4とXFS)のいくつかのパフォーマンスメトリックに対応しています。このメトリックは、たとえば、1秒あたりに作成されたファイルの数や、一部のファイル操作の平均待機時間などです。これらの分布から抽出されたすべてのサンプルは常に厳密に正であると想定できます。レッツコールこれらの分布ここで、F S TPerffstype,encryption及び E N C RのY軸のP T iがO 、N { C 、R 、Y 、P 、T 、O N 、O 、C 、R 、Y 、P T O }fstype{xfs,ext4}encryption{crypto,nocrypto}

さて、私の仮説は、暗号化がファイルシステムの1つを他よりも大きな要因で遅くするというものです。仮説E [ Perf x f s c r y p t o ]の簡単なテストはありますかE[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]


この質問の途中から一部のテキストが削除されたようです。復元できると思いますか?
whuber

「それで、」は誤ってそこに残されたと思います、少なくとも私はそれに追加したかったとは思えません。たぶん最後に2段落目に移ったものだったのでしょう。
Sami Liedes、2012

ログリンク関数を使用して、正規分布の一般化線形モデルを近似できます。
ワンストップ

1
「ファイル数」と「平均レイテンシ」は、通常は分散できません(どちらも負の値にはなりません)。どちらもやや正しいスキューである可能性があります。ファイル数は個別のカウントです。
Glen_b-2016

回答:


12

StasKの細かい答えの1つの代替策は、置換テストを使用することです。最初のステップは、おそらく次のような検定統計量を定義することです。T

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

ここで、は、おそらく、Perf e x t 4 c r y p t oなどの観測値の標本平均です (これは、比率の期待の代替可能性ではなく、期待の比率としての仮説-どの代替が実際に必要な可能性があります。)2番目のステップは、ラベルe x t 4 x fをランダムに並べ替えることです。Perf^ext4,cryptoPerfext4,cryptoデータ内で何回も、たとえば i = 1 10000とし、順列ごとに T iを計算します。最後のステップは、元の Tと観測された T iを比較することです。順列推定p値は分数のだろう T IText4, xfsi=1,,10000TiTTiTiT

順列テストを使用すると、漸近論に依存する必要がなくなりますが、もちろんサンプルサイズ(およびもちろんデータも)によっては、私が時折使用するデルタ法も問題なく機能する場合があります。


それも良い提案です!
StasK、2012

2つの中央の正規変数の比率はコーシー変数であることに注意してください。
西安

1
@西安:彼らがここで独立していると仮定できるかどうかは明らかですか?ご存知のように、この結果を保持するには、それが必要です(そして、役立つ可能性があります)。
枢機卿、

@cardinal:はい、確かに、彼らは独立している必要があります!
西安

1
非常に洗練された技術的ポイントとして、テスト統計が極めて重要である/未知のパラメーターを含まない/分散が安定している場合、少なくともnullの下では順列が少し良く機能します。プロポーションを使用すると、逆正弦変換を実行できます。厳密に正の連続量では、おそらくログから始めます。しかし、これは本当にケーキの上のアイシングです。
StasK

4

XY

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
r=Y¯/X¯ro=μY/μX
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
XYσXY
CV2[r]=CV2[X¯]+CV2[Y¯]
zH0:

そこからそれを取り、エンベロープ計算の残りのバックを実行して最終的な式を取得できることを願っています。

rr0O(1/n)O(1/n)


素晴らしくて啓発的な答えをありがとう!私は、jbowbanの順列検定を選択します。これは、それとその限界をよく理解していると思うからですが、デルタ法は、私が研究して理解する必要があるもののように見えます。
Sami Liedes


ザビエル、@usεr11852が良い答えを出したと思います。私はそれに追加する気になりません。
StasK

@StasK-回答で述べた条件はどのような条件下で有効ですか?比率統計の収束は、以前の仮定とデルタ法によって保証されていますか?
Xavier Bourret Sicotte

これは漸近的です...何も保証されておらず、エラー境界を取得するのは困難から不可能です。デルタ法(またはその他の弱い収束結果)がすべて言っているのは、サンプルサイズを大きくすると、実際の有限サンプル分布と漸近分布の差が小さくなることです。つまり、サンプルサイズを1000から10000に増やすと、cdf間の垂直方向の差は0.2から0.1に下がり、後者は実際にはまだ受け入れられません。または、差が0.01から0.001になることを意味する場合があります。
StasK

0

正規変量の比率はコーシー分布です。それを知っていれば、ベイズ因子検定を簡単に実行できます。

これはかなり自発的な考えでした。現在、データ生成メカニズムについては不明です。同じPCに異なるファイルシステムをインストールしてから、2つのケースのベンチマークを行って、階層的なデータ構造を想定できますか?

また、比率を見ることが実際に意味があるかどうかもわかりません。

そして、あなたは期待値の比率を書きましたが、私は比率の期待値を考えました。先に進む前に、データ生成に関する詳細情報が必要だと思います。


1
法線の比率は、(a)それらが独立していて、(b)同じ分散を持っている場合にのみコーシーになります。
枢機卿

西安は私が推測するのと同じ考えを持っていました...
joint_p

1
そのような独立構造が存在すること、またはそれらの平均がゼロであることは(少なくとも私には)明確ではありません。おそらく、あなたの答えを拡張することができれば、それはあなたが提案しているアプローチをより明確にするのに役立ちます。:)
枢機卿

1
@cardinal- 平均ゼロの独立した法線の比率であり、中央値がゼロでスケールパラメーターが正規標準偏差の比率に等しいコーシーであると考えました。ゼロ以外の平均値がある場合は、コーシーではありません。
確率確率

@問題:(+1)あなたは正しいです!それをキャッチしてくれてありがとう。私は最初のコメントで「標準」と「ゼロ平均」を落としました(後者はなんとかして2番目のコメントにしました)。
枢機卿

0

サンプルサイズが数百万の可能性を生み出す場合など、順列を実行できない場合、別の解決策はモンテカルロリサンプリングです。

ext4xfsnocryptocryptoext4xfsnocryptocrypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

x=ext4xfs

n=samplesize

H0nocryptocryptoTobserved=0

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

TresamplingH0nocryptocryptoTobserved(p<0.05)Tresampling

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.