非正規サンプルのサンプル分散の漸近分布


19

これはこの質問によって提起された問題のより一般的な取り扱いです 。サンプル分散の漸近分布を導出した後、デルタ法を適用して標準偏差の対応する分布に到達できます。

iidの非正規ランダム変数のサイズのサンプル、平均してと分散。サンプル平均とサンプル分散を { X i } n{Xi},i=1,...,nμσ2

x¯=1ni=1nXi,s2=1n1i=1n(Xix¯)2

私たちは知っている

E(s2)=σ2,Var(s2)=1n(μ4n3n1σ4)

ここで、であり、存在が有限である必要があるモーメントが存在し、有限である分布に注意を制限します。μ4=E(Xiμ)4

それを保持していますか

n(s2σ2)dN(0,μ4σ4)?

へえ。あなたがこれを投稿したことに気づかずに、私は他のスレッドに投稿しました。分散に適用されるCLTには、いくつかのことがあります(たとえば、ここのp3-4など)。いい答えです。
グレン_b-モニカを復元14

ありがとう。はい、私はこれを見つけました。しかし、彼らは@whuberが指摘した事例を見逃しています。彼らは一般的な持つベルヌーイの例さえ提供します!(4ページのベース)。 1/2のケースもカバーするように回答を拡張しています。pp=1/2
アレコスパパドプロ14

はい、私は彼らがベルヌーイを考慮したが、その特別なケースを考慮しなかったことを見ました。スケーリングされたベルヌーイ(同等の確率の二分されたケース)の区別についての言及は、(コメントではなく)ここで答えて議論することが重要な理由の1つ(他のいくつかの間)であると思います-特に検索可能です。
Glen_b-モニカの復職14

回答:


20

サンプル分散を考慮するときに生じる依存関係を回避するために、次のように記述します。

(n1)s2=i=1n((Xiμ)(x¯μ))2

=i=1n(Xiμ)22i=1n((Xiμ)(x¯μ))+i=1n(x¯μ)2

そして、少し操作した後、

=i=1n(Xiμ)2n(x¯μ)2

だから

n(s2σ2)=nn1i=1n(Xiμ)2nσ2nn1n(x¯μ)2

操作する、

n(s2σ2)=nn1i=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nnn11ni=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nn1[n(1ni=1n(Xiμ)2σ2)]+nn1σ2nn1n(x¯μ)2

用語は漸近的に単一になります。用語は決定論的であり、としてゼロになります。n/(n1)のnnn1σ2n

さらに。最初のコンポーネントは分布が正規に収束し、2番目のコンポーネントは確率がゼロに収束します。次に、スルツキーの定理により、積は確率がゼロに収束します。n(x¯μ)2=[n(x¯μ)](x¯μ)

n(x¯μ)2p0

用語が残っています

[n(1ni=1n(Xiμ)2σ2)]

この答えへのコメントで@whuberによって提供された致命的な例によって警告されて、が一定でないことを確認したいと思います。Whuber は、がベルヌーイ場合、この量は定数であると指摘しました。そのため、これが発生する変数を除外します(おそらく、バイナリだけでなく、他の二分法ですか?)(Xiμ)21 / 2 0 / 1Xi(1/2)0/1

E(Xiμ)2=σ2,Var[(Xiμ)2]=μ4σ4

したがって、調査中の用語は、古典的な中央極限定理の通常の主題であり、

n(s2σ2)dN(0,μ4σ4)

注:もちろん、上記の結果は正規分布サンプルにも当てはまりますが、この最後のケースでは、有限サンプルのカイ二乗分布結果も利用できます。


3
+1一般的な二分分布はすべてベルヌーイのスケールバージョンとロケーションバージョンであるため、一般的な二分分布を確認する理由はありません。ベルヌーイの分析で十分です。私のシミュレーション(サンプルサイズ)では、結果を確認します。 χ 2 1101000χ12
whuber

@whuberチェックしていただきありがとうございます。もちろん、ベンロウリが彼らのすべての母親であることは間違いありません。
アレコスパパドプロス14

10

あなたはすでにあなたの質問に対する詳細な答えを持っていますが、私はそれと一緒に行くために別のものを提供させてください。実際には、以下の分布があるという事実に基づいて、より短い証明が可能です。

S2=1n1i=1n(XiX¯)2

たとえば、に依存しません。漸近的に、ファクターをに変更するかどうかも問題ではありません。これは便宜上行います。それから1E(X)=ξ 11n11n

n(S2σ2)=n[1ni=1nXi2X¯2σ2]

そして今、一般性を失うことなく、と仮定し、ξ=0

nX¯2=1n(nX¯)2

2番目の項は(CLTと連続マッピング定理によって)確率で制限されているため、確率限界ゼロです。つまり、です。漸近的な結果は、Slutzkyの定理とCLTから得られます。Op(1)

n[1nXi2σ2]DN(0,τ2)

ここで、。そして、それはそれを行います。τ2=Var{X2}=E(X4)(E(X2))2


これは確かに経済的です。しかし、仮定が無害であることを再考してください。たとえば、ベルヌーイ( 1/2 )サンプルの場合は除外されます。私の回答の最後で述べたように、そのようなサンプルでは、​​この漸近的な結果は成り立ちません。、P = 1 / 2E(X)=0p=1/2
アレコスパパドプロス

@AlecosPapadopoulos確かに、データは常に中央揃えにできますよね?、そして、これらの変数を操作できます。ベルヌーイの場合、そうすることを妨げる何かがありますか?
i=1n(Xiμ(X¯μ))2=i=1n(XiX¯)2
JohnK

@AlecosPapadopoulosそうそう、問題が見えます。
JohnK

私はこの問題について小さな記事を書きました。ブログにアップロードする時が来たと思います。あなたがそれを読むことに興味があるなら、私はあなたに通知します。この場合の標本分散の漸近分布は興味深いものであり、さらに標本標準偏差の漸近分布も興味深いものです。これらの結果は、任意の 1/2二分確率変数に当てはまります。p=1/2
アレコスパパドプロス

1
馬鹿げた質問ですが、が正常でない場合、は補助的であるとどのように想定できますか?または、常に補助的です(wrm平均パラメータ化と思います)が、サンプル平均がBasuの定理による完全な十分な統計(すなわち正規分布)である場合にのみ、サンプル平均から独立していますか?X i S 2S2XiS2
Chill2Macht

3

AlecosJohnKによる優れた答えは、あなたが求めている結果をすでに導き出していますが、サンプル分散の漸近分布について何か別のものに注目したいと思います。

正規分布を使用して提示される漸近的な結果を見るのが一般的であり、これは定理を述べるのに役立ちます。ただし、実際には、サンプル統計量の漸近分布の目的は、が大きい場合に近似分布を取得できるようにすることです。多くの分布は漸近形が同じであるため、大標本近似には多くの選択肢があります。サンプル分散の場合、が大きい優れた近似分布は次のように与えられるというのが私の見解です。nnn

Sn2σ2Chi-Sq(df=DFn)DFn,

ここで、およびは尖度パラメーターです。この分布は、定理から導き出された正規近似と漸近的に等価です(自由度が無限になる傾向があるため、カイ2乗分布は正規に収束します)。この等価性にもかかわらず、この近似には、近似分布に必要な他のさまざまな特性があります。DFn2/V(Sn2/σ2)=2n/(κ(n3)/(n1))κ=μ4/σ4

  • 定理から直接導出された正規近似とは異なり、この分布は対象の統計量を正しくサポートしています。サンプル分散は非負であり、この分布には非負のサポートがあります。

  • 基礎となる値が正規分布している場合、この近似は実際には正確なサンプリング分布です。(この場合、ほとんどのテキストで使用される標準形式であるを与えるあります。)したがって、重要な特別な場合に正確な結果を構成しますが、より一般的なケース。κ=3DFn=n1


上記の結果の導出:サンプルの平均値と分散の近似分布結果については、O'Neill(2014)で詳しく説明されています。このホワイトペーパーでは、現在の近似分布を含む多くの結果の導出について説明します。

この導出は、質問の限定的な結果から始まります。

n(Sn2σ2)N(0,σ4(κ1)).

この結果を再配置して、近似を取得します。

Sn2σ2N(1,κ1n).

カイ2乗分布は漸近正規分布であるため、次のようになります。DF

Chi-Sq(DF)DF1DFN(DF,2DF)=N(1,2DF).

服用(上記式が得られる)を与えるカイ二乗分布に漸近的であることを保証します制限定理からの通常の近似に相当します。D F N2 N /κ - 1 DFn2/V(Sn2/σ2)DFn2n/(κ1)


経験的に興味深い質問の1つは、これらの2つの漸近的な結果のどちらが、さまざまな基礎となるデータ分布の下での有限サンプルの場合によりよく機能するかということです。
lzstat

はい、それは非常に興味深い(そして公開可能な)シミュレーション研究になると思います。現在の式はサンプル分散の分散の尖度補正に基づいているので、中枢性から遠い尖度パラメータを持つ基になる分布がある場合(つまり、尖度-修正が最も重要です)。尖度はサンプルから推定する必要があるため、全体的なパフォーマンスが大幅に改善される時期については未解決の問題です。
モニカを
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.