有限分散をテストしますか?


29

サンプルが与えられたランダム変数の分散の有限性(または存在)をテストすることは可能ですか?nullとして、{分散が存在し有限である}または{分散が存在しない/無限である}のいずれかが受け入れられます。哲学的に(そして計算上)、これは非常に奇妙に思えます。なぜなら、有限分散のない母集団と非常に大きな分散(例えば、> )の母集団の間に差がないはずなので、この問題が解決できるとは思えません。10400

私に提案された1つのアプローチは、中央限界定理によるものでした:サンプルがiidであり、母集団が有限平均を持っていると仮定すると、サンプルサイズが大きくなるにつれてサンプル平均に正しい標準誤差があるかどうかを何らかの方法でチェックできます。ただし、この方法が機能するかどうかはわかりません。(特に、適切なテストにする方法がわかりません。)


1
関連: stats.stackexchange.com/questions/94402/… 分散が存在しない可能性がわずかでもある場合は、有限分散を想定していないモデルを使用したほうがよいでしょう。テストすることさえ考えないでください。
kjetil bハルヴォルセン

回答:


13

いいえ、これは不可能です。サイズ有限サンプルは、たとえば通常の母集団と、N >> nであるコーシー分布の1 / N量で汚染された通常の母集団とを確実に区別できないためです。(もちろん、前者には有限の分散があり、後者には無限の分散があります。)したがって、完全にノンパラメトリックなテストでは、このような代替に対してarbitrarily意的に低いパワーを持ちます。n1/NNn


4
これは非常に良い点です。しかし、ほとんどの仮説検定は、いくつかの選択肢に対してarbitrarily意的に低い検出力を持っているのではないでしょうか?例えば平均と母集団からサンプルが与えられたときにゼロ平均のためのテストは、非常に低い消費電力を持っていますため0 < | ϵ | 小さい。そのようなテストがまったく健全に構築できるのかどうか、それが場合によっては低電力であるかどうかはまだまだ疑問に思っています。ϵ0<|ϵ|
みすぼらしいシェフ

2
また、あなたが引用したような「汚染された」分布は、常に「同一に分布している」という考えと対立しているように思えました。おそらくあなたは同意するでしょう。サンプルは、分布を意味せずに、ある分布からiidで抽出されたということは無意味であるようです(まあ、iidの「独立した」部分は意味があります)。
みすぼらしいシェフ

2
(1)低電力については正しいですが、ここでの問題(私には思える)は、「有限」から「無限」への段階的なステップがないことです。 「大きな」出発と比較して、ヌルからの「小さな」出発を構成するもの。(2)分布形式はiidの考慮事項とは無関係です。たとえば、データの1%がCauchyから、99%がNormalから得られるという意味ではありません。つまり、データの100%は、ほぼ正規分布であるが、Cauchyテールをもつ分布からのものです。この意味で、データは汚染された分布に対してiidになる可能性があります。
whuber

2
誰かこの論文を読んだことがありますか?sciencedirect.com/science/article/pii/S0304407615002596
クリストフハンク

3
@shabbychefは、すべての観測がまったく同じ混合プロセスから発生する場合、それぞれが対応する混合分布からの引き分けとして同一に分散されます。1つのプロセスからの観測と、別のプロセスからの観測が必要な場合(観測1から990は正常であり、観測991から1000はコーシーです)、それらは同一の分布ではありません(組み合わせたサンプルが区別できない場合でも) 99%-1%の混合物から)。これは基本的に、使用しているプロセスのモデルに帰着します。
Glen_b -Reinstateモニカ

16

分布を知らないと確信が持てません。しかし、そのようなあなたのサイズのサンプルがある場合、すなわち、「部分的分散」と呼ばれるかもしれないものを見ているようにあなたが行うことができます特定のものがある、あなたは最初から推定分散描くのnで、用語をnは 2からに実行するには、NNnnN

母集団の分散が有限であれば、部分分散はすぐに母集団分散の近くに落ち着くことを期待します。

母集団の分散が無限である場合、部分分散にジャンプアップが見られ、その後サンプルに次の非常に大きな値が現れるまでゆっくりと低下します。

これは、正規およびコーシーのランダム変数(およびログスケール)を示す図です。 部分分散

これは、分布の形状が十分な信頼性でそれを識別するためにあなたが持っているよりもはるかに大きなサンプルサイズが必要なようなものである場合、すなわち非常に大きな値が有限分散を持つ分布ではかなり(しかし極端ではない)、または、無限分散の分布では非常にまれです。特定の分布については、その性質を明らかにしない可能性が高いサンプルサイズがあります。逆に、特定のサンプルサイズに対して、そのサイズのサンプルの性質を偽装しない可能性が高い分布があります。


4
+1私はこれが好きです。なぜなら、(a)グラフィックは通常、テスト以上のものを明らかにし、(b)それは実用的だからです。私はそれがarbitrary意的な側面を持っていることを少し心配しています:その外観は(おそらく、おそらく)データが与えられる順序に依存します。「部分的な差異」が1つまたは2つの極値に起因し、それらが最初に近づくと、このグラフィックは誤解を招く可能性があります。この問題に良い解決策があるのだろうか。
whuber

1
素晴らしいグラフィックのために+1。コーシー分布の「分散なし」の概念を本当に強固にします。@whuber:考えられるすべての順列でデータをソートし、それぞれに対してテストを実行し、何らかの平均を取るか?計算効率はそれほど高くありませんが、私はあなたに許可します:)
naught101

2
@ naught101すべての順列を平均しても何もわかりません。完全に水平な線が得られるからです。おそらく私はあなたの言うことを誤解していますか?
whuber

1
@whuber:実際には、グラフ自体ではなく、収束のためにある種のテストの平均を取ることを意味しました。しかし、私はそれをかなり曖昧なアイデアだと認めます。それは主に、私が何について話しているのかわからないからです:)
naught101

7

別の答えがあります。次のような問題をパラメーター化できると仮定します。

H0: Xt(df=3) versus H1: Xt(df=1).

次に、H 0H 1の通常のネイマンピアソン尤度比検定を実行できます。H 1コーシー(無限分散)であり、H 0は3自由度(有限分散)の通常のスチューデントtであり、PDFを持っている ことに注意してください。f x | ν = Γ ν + 1H0H1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

以下のための。単純なランダムサンプルデータx 1x 2x nが与えられると、尤度比検定はΛ x= n i = 1 f x i | ν = 1 )の場合にH 0棄却します。<x<x1,x2,,xnH0K0ように選択される PΛX>kは

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

Λ x= を単純化するのは少し代数です

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

Λ(x)H0Λ(x)α=0.05n=13

H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

12.8842(3/2)13k1.9859

H0H1α

免責事項:これはおもちゃの例です。私のデータが3 dfのスチューデントのtとは対照的にコーシーからのものであるかどうかを知りたいという現実の状況はありません。そして、元の質問はパラメータ化された問題については何も言わなかったが、ノンパラメトリックなアプローチをもっと探しているように見えた。この答えの目的は、質問のタイトルを偶然見つけ、古典的なほこりっぽい教科書のアプローチを探している将来の読者向けです。

H1:ν1


2
α

1
H1:ν2ν>2

2
α

1
αα=2

6

DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

1つの仮説には有限の分散があり、もう1つの仮説には無限の分散があります。オッズを計算するだけです:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

P(H0|I)P(HA|I)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

L1<μ,τ<U1L2<σ,τ<U2

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

s2=N1i=1N(YiY¯)2Y¯=N1i=1NYi

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

そして今比率をとると、正規化定数の重要な部分がキャンセルされ、次のようになります:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

そして、すべての積分はまだ制限内で適切なので、次のようになります。

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

λ=σ2dσ=12λ32dλ

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

そして、数値作業のオッズの最終的な分析形式として取得します。

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

したがって、これは有限分散と無限分散の特定のテストと考えることができます。また、このフレームワークにT分布を行って別のテストを取得することもできます(自由度が2より大きいという仮説をテストします)。


1
s2

2
ss2=N1i=1N(YiY¯)2Y¯x¯

5

反例は、尋ねられた質問には関係ありません。iid確率変数のサンプルが、特定の有意水準で有限分散を持つ分布から引き出されるという帰無仮説をテストします。仮説検定の使用法と限界を理解するために、Casellaによる「統計的推論」などの参考資料をお勧めします。有限分散のhtに関しては、便利なリファレンスはありませんが、次のペーパーでは、同様の、しかしより強力な問題のバージョン、つまり、分布の裾がべき法則に従う場合について説明します。

経験的データにおけるべき法則の分布 SIAM Review 51(2009):661--703。


1

私に提案されたアプローチの1つは、中央極限定理によるものでした。

これは古い質問ですが、CLTを使用して大きなテールをテストする方法を提案したいと思います。

X={X1,,Xn}Y={Y1,,Yn}X

Z=n×mean(Y)mean(X)sd(Y),

また、N(0,1)分布関数に近いです。

あとは、多数のブートストラップを実行し、観測されたZの経験的分布関数をN(0,1)のedfと比較するだけです。この比較を行う自然な方法は、コルモゴロフ–スミルノフ検定です。

次の写真は、主なアイデアを示しています。両方の写真で、各色付きの線は、特定の分布からの1000回の観測のiid実現と、Z ecdfの近似のためのサイズ500の200のブートストラップリサンプルから構成されています。黒い実線はN(0,1)cdfです。

ここに画像の説明を入力してください ここに画像の説明を入力してください


2
私の答えで提起した問題に対して、ブートストラップの量はどこにも行きません。これは、サンプルの大部分が重い尻尾の証拠を提供しないためであり、ブートストラップは定義上、サンプル自体のデータのみを使用するためです。
whuber

1
@whuber X値が対称べき乗則から取得された場合、一般化されたCLTが適用され、KSテストは差を検出します。あなたの観察は、あなたが言うことを「「有限」から「無限」への漸進的なステップ」と正しく特徴付けていないと信じています
-Mur1lo

1
CLTは、有限サンプルに「適用」されることはありません。それは限界に関する定理です。
whuber

1
「適用する」と言うときは、大きなサンプルがある場合に適切な近似値を提供するというだけです。
Mur1lo

1
「良い近似」と「大きい」というあいまいさは、残念ながら仮説検定の論理を捉えることができません。あなたの声明の中で暗黙的であるのは、あなたが重尾を検出できるようになるまで、より大きなサンプルを収集する可能性です。標準設定では、所定のサンプルがあり、タスクは帰無仮説の分布からのものかどうかをテストすることです。この場合、ブートストラップはそれ以上の簡単なテストよりも優れた結果をもたらしません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.