次元の増加に伴う正規分布の密度


15

私が尋ねたい質問はこれです:正規分布の平均の1 SD内のサンプルの割合は、変量の数が増えるにつれてどのように変化しますか?

(ほとんど)誰もが、1次元正規分布では、平均の1標準偏差内でサンプルの68%が見つかることを知っています。2、3、4、...次元についてはどうですか?私はそれが少なくなることを知っています...しかしどれだけ(正確に)?1、2、3 ... 10次元、および1、2、3 ... 10 SDの数値を示す表があると便利です。誰でもそのようなテーブルを指すことができますか?

もう少しコンテキスト-最大128チャネルのデータを提供するセンサーがあります。各チャネルは(独立した)電気ノイズの影響を受けます。キャリブレーションオブジェクトを検知すると、十分な数の測定値を平均して、128個の標準偏差とともに128個のチャネルで平均値を取得できます。

しかし...個々の瞬間的な測定値に関して言えば、データは128個のベクトル値の単一の測定値のように128個の測定値のように反応しません。確かに、これは私たちが取るいくつかの重要な測定値(通常は128の4-6)を処理する最良の方法です。

このベクトル空間で「通常の」変動と「外れ値」とは何かを感じたい。私はこの種の状況に当てはまると私が説明したようなテーブルを見たことがあると思います-誰でもそれを指すことができますか?


してください-私は経験的な答えだけを持つことができます-私はほとんどの数学表記を理解していません。
omatai

回答:


19

ことができますテイク:各Xは、私は正常であり、N 0 1 X 私は独立している-私はあなたがより高い次元で何を意味するかというのを推測します。X=(X1,,Xd)N(0,I)バツN(0,1)バツ

は平均の1 sd以内であると言うでしょう| X | | < 1(Xとその平均値の間の距離は1より小さい)。今| | X | | 2 = X 2 1 + + X 2 Dχ 2D これは確率で起こるようP ξ < 1 ξ χ 2D X||X||<1||X||2=X12++Xd2χ2(d)P(ξ<1)ξχ2(d)。これは良いカイの正方形の表で見つけることができます...

以下にいくつかの値を示します。

dP(ξ<1)10.6820.3930.2040.09050.03760.01470.005280.001890.00056100.00017

また、2 sdの場合:

dP(ξ<4)10.9520.8630.7440.5950.4560.3270.2280.1490.089100.053

あなたのようなcommadsとRでこれらの値を取得することができpchisq(1,df=1:10)pchisq(4,df=1:10)など、

Post Scriptum枢機inalがコメントで指摘したように、これらの確率の漸近的挙動を推定することができます。CDF 変数である F DX = P D / 2 X / 2 = γ D / 2 X / 2 χ2(d) γSY=Y0TS-1つのE-TDのtはある不完全γの-function、及びclassicalyΓS=0TS-1つのE-Tdt

Fd(x)=P(d/2,x/2)=γ(d/2,x/2)Γ(d/2)
γ(s,y)=0yts1etdtγΓ(s)=0ts1etdt

場合部品ショーによって繰り返し統合すなわち、整数であり、 P S Y = E - Y Σは k個の= S 、Y 、Ks これはポアソン分布のCDFのテールです。

P(s,y)=eyk=sykk!,

今、この合計がその最初の項によって支配されている(枢機卿に感謝):P(s,y)yss!eysd

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
for big even d, the penultimate equivalence using Stirling formula. From this formula we see that the asymptotic decay is very fast as d increase.

Welcome to our site, Elvis! Nice answer. (+1)
whuber

1
(+1) Good answer. Here are a couple suggestions for your consideration: (1) It might help to make explicit what ξ is for clarity's sake, (2) briefly give an intuitive argument for the choice you've made for the meaning of "one standard deviation" in this context and why it is even well-defined in the first place, and (3) add a statement regarding the growth of this quantity as a function of d. (The OP asks for only "empirical" answers, but other readers might appreciate a small mathematical addendum.)
cardinal

Thank you for your comments. I didn’t think this answer would receive much attention! It is true that this is a nice form of the curse of dimensionality... @cardinal concerning (3) I don’t know any asymptotic equivalent of the incomplete gamma function when the first parameters goes to infinity, the second being fixed, this is not easy! A rough majoration could be done, I may write that later.
Elvis

2
Regarding (3), to avoid a computation, you can employ the following argument: Let d be even and such that d=2k. Note that Zi=X2i12+X2i2 is an Exp(1/2) random variable. So X2=i=1kZi. But, then X2 is just the time until the kth renewal of a Poisson process with rate 1/2. So P(X2<1)=P(N1/2(0,1)k)=e1/2x=k2x/x!. The tail of the Poisson is dominated by the leading term, so P(X2<1)e1/22k/Γ(k+1) as d (Again: k=d/2).
cardinal

1
Part of the point of the foregoing comment is that we get an exact answer for all even d. Also, using Stirling's approximation, we get that P(X2<1)e1/22k/Γ(k+1)e(d1)/2d(d+1)/2/π.
cardinal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.