2次元の標準偏差を計算する方法。

10

私の問題は次のとおりです。床から数メートル離れた特定の場所から一度に40個のボールを落とします。ボールが転がり、休憩します。コンピュータービジョンを使用して、XY平面の重心を計算します。単純なジオメトリを使用して計算された、重心から各ボールまでの距離のみに関心があります。さて、中心からの片側標準偏差を知りたい。したがって、特定の数のボールが1つの標準半径内にあり、より多くのボールが2 *標準半径内にあることなどを知ることができます。片側標準偏差を計算するにはどうすればよいですか？通常のアプローチでは、ボールの半分が0の「負の側」にあると述べています。もちろん、これはこの実験では意味がありません。ボールが標準分布に準拠していることを確認する必要がありますか？助けてくれてありがとう

normal-distribution standard-deviation

— K_scheduler
ソース

13

重心の周りの2D分散の量を特徴付けるには、（ルート）平均二乗距離が必要です。

\hat{σ} = RMS = \sqrt{\frac{1}{n} \sum_{i} ((x_{i} - \bar{x})^{2} + (y_{i} - \bar{y})^{2})} .

$\hat\sigma=\text{RMS} = \sqrt{\frac{1}{n}\sum_i\left((x_i - \bar{x})^2 + (y_i - \bar{y})^2\right)}.$

この式では、はポイント座標であり、それらの重心（平均のポイント）は $(x_i, y_i), i=1, 2, \ldots, n$ $(\bar{x}, \bar{y}).$

質問は、距離の分布を求めます。ボールの重心の周りに等方性の2変量正規分布がある場合（これは標準で物理的に妥当な仮定です）、2乗距離は2自由度（各座標に1つ）のカイ2乗分布に比例します。これは、であるため、独立した標準正規変数の二乗の和としてのカイ2乗分布の1つの定義の直接の結果です。は、期待値を持つ独立した正規変量の線形結合です x_i-共通分散を書き込む

x_{i} - \bar{x} = \frac{n - 1}{n} x_{i} - \sum_{j \neq i} \frac{1}{n} x_{j}

$x_i - \bar{x} = \frac{n-1}{n}x_i - \sum_{j\ne i}\frac{1}{n}x_j$

E [x_{i} - \bar{x}] = \frac{n - 1}{n} E [x_{i}] - \sum_{j \neq i} \frac{1}{n} E [x_{j}] = 0.

$\mathbb{E}[x_i - \bar{x}] = \frac{n-1}{n}\mathbb{E}[x_i] -\sum_{j\ne i}\frac{1}{n}\mathbb{E}[x_j] = 0.$

x_{i}

$x_i$ 、異方性の仮定では、はと同じ分布を持ち、それらとは独立しているため、の分布についても同じ結果が得られます。これにより、比例定数が確立されます。距離の2乗は、2自由度のカイ2乗分布で、でスケーリングされます。

σ^{2}

$\sigma^2$

E [{(x_{i} - \bar{x})}^{2}] = Var (x_{i} - \bar{x}) = {(\frac{n - 1}{n})}^{2} Var (x_{i}) + \sum_{j \neq i} {(\frac{1}{n})}^{2} Var (x_{j}) = \frac{n - 1}{n} σ^{2} .

$\mathbb{E}[\left(x_i -\bar{x}\right)^2]=\text{Var}(x_i - \bar{x}) = \left(\frac{n-1}{n}\right)^2\text{Var}(x_i) + \sum_{j\ne i}\left(\frac{1}{n}\right)^2\text{Var}(x_j) = \frac{n-1}{n}\sigma^2.$

y_{j}

$y_j$

x_{i}

$x_i$

(y_{j} - \bar{y})^{2}

$(y_j - \bar{y})^2$ $\frac{n-1}{n}\sigma^2$

これらの方程式の最も厳しいテストはの場合です。そのため、分数は最も異なります。と両方の実験をシミュレーションし、スケーリングされたカイ2乗分布（赤）で2乗距離のヒストグラムをオーバープロットすることで、この理論を検証できます。 $n=2$ $\frac{n-1}{n}$ $1$ $n=2$ $n=40$

各行は同じデータを示しています。左側のx軸は対数です。右側には、実際の平方距離が表示されます。これらのシミュレーションのの真の値はに設定されました。 $\sigma$ $1$

これらの結果は、で100,000 回、 50,000回の反復に対するものです。ヒストグラムとカイ2乗密度の間の一致は優れています。 $n=2$ $n=40$

が不明ですが、それはさまざまな方法で推定することができます。例えば、平均二乗距離があるべき回の平均で、。、例えば、推定として回の平均二乗距離。こうしての推定であろう回RMS距離。分布の値を使用すると、次のように言えます。 $\sigma^2$ $\frac{n-1}{n}\sigma^2$ $\chi^2_2$ $2$ $n=40$ $\sigma^2$ $\frac{40}{39}/2$ $\sigma$ $\sqrt{40/78}$ $\chi^2_2$

分布の39％はより小さいため、距離の約39％はより短くなります。 $\sqrt{39/40}\hat\sigma$ $\chi^2_2$ $1$
距離の約78％未満であろう回の78％であるため、分布未満である。 $\sqrt{3}$ $\sqrt{39/40}\hat\sigma$ $\chi^2_2$ $3$

以下同様に、または代わりに使用する複数の場合。チェックとして、以前にプロットされたシミュレーションでは倍未満の二乗距離の実際の比率は $1$ $3$ $n=40$ $1, 2, \ldots, 10$ $\frac{n-1}{n}\hat\sigma^2$

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

理論上の比率は

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

合意は素晴らしいです。

ここでR、シミュレーションを実施し、分析するためのコードが。

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)

— whuber
ソース

2

非常に包括的な回答をありがとうございます。ボールの数で除算せずに、RMS公式が標準偏差をどのように表すことができるのか、私にはよくわかりません。それをhttp://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformaticsと比較すると、合計はNで除算されています。合計をNまたはN-1で除算する必要があります（40ボールはボールの母集団からの選択？）

— K_scheduler 2013

もう一度計算を行った後、sqrt（SDx ^ 2 + SDy ^ 2）が私が求めているもののようです。これにより、65％の確率ですべてのボールを含む円の半径が得られます。

— K_scheduler 2013

これはRMSの同等の式ですが、この回答で説明されているように、65％の値は正しくありません。

— whuber

2

@naliこれらすべてのポイントは、ここでの私の回答に明確に示されています。

— whuber

4

@naliここでのあなたの投稿は、無礼とアドホミネム攻撃の妥当性の範囲を超えています。私は無知または愚かであると考えられることについては心配していませんが、このサイトのモデレーターとして、私は談話を民事に保つことを懸念する必要があり、そのためあなたが投稿している激怒を容認できません。したがって、私はあなたの最新のコメントを削除しました。同様に失礼なあなたからのコメントを見つけた場合は、誰に対しても、それを予告なしに削除し、私（または他のモデレーター）はこのサイトでのあなたの対話を制限するために直ちに措置をとります。

— whuber

4

少し混乱しているものがあると思います。距離を負にすることはできませんが、標準偏差の計算には影響しません。これは、距離の分布が正確に正規ではない可能性があることを意味しますが、それでもまだ近い可能性があります。しかし、それが正常から離れていても、標準偏差はまだあります。

また、「片側」標準偏差はありません-仮説検定（片側または両側）を考えているかもしれません。タイトルでは、平均は0であると言いますが、平均距離は0にはならず（ボールがスタック内に40のボールの高さがある場合を除きます）、制限があると言います-ボールがドロップされた場合、制限がある可能性があります部屋は、中心から最も近い壁までの距離よりも離れることはできません。しかし、いくつかのボールが壁にぶつからない限り、それは物事に影響を与えません。

したがって、40の距離を取得したら、標準的な方法を使用して標準偏差（および平均、中央値、四分位範囲など）を計算します。距離のプロット（分位点正規プロット、ボックスプロットなど）を作成して、おおよそ正規分布しているかどうかを確認することもできます（対象の場合）。

— ピーターフロム-モニカの回復
ソース

ピーターありがとう、私は自分を正しく表現できませんでした。明確にしてみましょう：上からのシーンを想像してみてください。平均距離を計算すると、重心の周りの円として示されます（平均距離=半径）。これから+/- std偏差すると、小さい円と大きい円が生成されます。重心までの平均距離の標準偏差ではなく、重心から外側への標準偏差を知りたい。言い換えると、重心からの半径が、配置されたボールの68.2％（1標準偏差）以内であるということです。

— K_scheduler 2013

あ、そう。次に、これは統計の問題ではなく、数学の問題だと思います。68.2％がどこに落ちるかはわかっています...答えは忘れますが、ます

π

$\pi$

— ピーターフロム-モニカの回復

あなたの最初の答えは正しいかもしれません。私が見つけたものから、放射状標準偏差を使用するとうまくいくはずです。RSD = sqrt（SDx ^ 2 + SDy ^ 2）

— K_scheduler 2013

1

これが尋ねられてからしばらく経ちますが、質問に対する答えは、これはレイリー分布と呼ばれる2D分布であるということです。ここでは、レイリー形状係数がX座標とY座標の両方の標準偏差に等しいと仮定しています。実際には、形状係数の値は、XとYの標準偏差のプールされた平均から計算されます。

始まる、および

バツ 〜 N （ μ_{バツ} 、 σ_{バツ}^{2} ）

$X \sim \mathcal{N}(\mu_x,\sigma_x^2)$

Y 〜 N （ μ_{y} 、 σ_{y}^{2} ）

$Y \sim \mathcal{N}(\mu_y,\sigma_y^2)$

二変量正規分布を使用します。

f （ バツ 、 y ） = \frac{1}{2 π σ_{バツ} σ_{y} \sqrt{1 - ρ^{2}}} \exp （ - \frac{1}{2 （ 1 - ρ^{2} ）} [\frac{（ バツ - μ_{バツ} ）^{2}}{σ_{バツ}^{2}} + \frac{（ y - μ_{y} ）^{2}}{σ_{y}^{2}} - \frac{2 ρ （ バツ - μ_{バツ} ） （ y - μ_{y} ）}{σ_{バツ} σ_{y}}] ）

$f(x,y) = \frac{1}{2 \pi \sigma_x \sigma_y \sqrt{1-\rho^2}} \exp\left( -\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_x)^2}{\sigma_x^2} + \frac{(y-\mu_y)^2}{\sigma_y^2} - \frac{2\rho(x-\mu_x)(y-\mu_y)}{\sigma_x \sigma_y} \right] \right)$

ポイントと仮定し。

（ μ_{バツ} 、 μ_{y} ）

$(\mu_x, \mu_y)$

ρ = 0

$\rho = 0$

また、と仮定して、両方を置き換えます。

σ_{バツ}^{2} = σ_{y}^{2}

$\sigma_x^2 = \sigma_y^2$

σ^{2}

$\sigma^2$

次に、2次元分布は、レイリー分布と呼ばれる点周りの半径として表されます。

（ μ_{バツ} 、 μ_{y} ）

$(\mu_x, \mu_y)$

P D F （ r; σ ） = \frac{r}{σ^{2}} \exp （ - \frac{r^{2}}{2 σ^{2}} ）

$PDF(r; \sigma) = \frac{r}{\sigma^2 } \exp\left( - \frac{r^2}{2\sigma^2} \right)$ whereおよび

σ = σ_{バツ} = σ_{y}

$\sigma = \sigma_x = \sigma_y$

r_{私} = \sqrt{（ {バツ}_{私} - μ_{バツ} ）^{2} + （ y_{私} - μ_{y} ）^{2}}

$r_i = \sqrt{(x_i - \mu_x)^2 + (y_i - \mu_y)^2}$

C D F （ r; σ ） = 1 - \exp （ - \frac{r^{2}}{2 σ^{2}} ）

$CDF(r; \sigma) = 1 - \exp\left( - \frac{r^2}{2\sigma^2} \right)$

もちろん、これは継続的な配布のためです。わずか40個のボールのサンプルの場合、正確な解決策はありません。40個のボールのサンプルでモンテカルロ分析を行う必要があります。Taylor、MS＆Grubbs、Frank E.（1975）。「極値拡散の近似確率分布」では、Chi分布の推定値と、その分布の対数正規がサンプルの分布に適合していることがわかりました。

編集-ウーバーの疑いにもかかわらず、彼が計算した理論的な比率は次のとおりです。

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

CDF関数から、次の範囲に等しいrの累積シグマ値（シグマ）：

0-1、0-2、0-3、...、0-10

次のとおりです。

0.3935、0.6321、0.7769、0.8647、0.9179、0.9502、0.9698、0.9817、0.9889、0.9933

— MaxW
ソース

ディストリビューションに名前を付けていただきありがとうございます。ただし、（1）分布のパラメーターとデータから導出されたそのパラメーターの推定値を区別しないこと、（2）ボールの分布について必要な（強い）仮定を述べないこと、および（3）あいまいであることにより、リスク誤解を招く読者。実際、「これ」の参照が何であるかは不明です。それは、ボールの位置の分布でしょうか？（いいえ）重心の分布？（はい、ただし、ボールの標準偏差とは異なるスケールパラメーターを使用します。）回答を明確にしますか？

— whuber

ギャップを埋めました...

— MaxW

説明をありがとう、マックス。答えの正しさの簡単なチェックとして、ではなく1つのボールを考えてみましょう。あなたの答えは、このボールとすべてのボールの重心との間の距離の分布がレイリー分布であると主張しているようです。残念ながら、この場合、その距離は常にゼロです。（質問では、「単純なジオメトリを使用して計算された、重心から各ボールまでの距離」と具体的に説明しています。）これは、ボールを含め、すべてのケースで答えが間違っている可能性があることを示唆しています。

40

$40$

40

$40$

— whuber

分布はほぼ重心です。

— MaxW 2015年

もちろん、CDFは1つのボール用に設定されています。CDFから、ボールの39％は半径σの円内にあり、86％は2σ内にあり、99％は3σ内にあります。

— MaxW

-1

正と負の両方の値の正規分布は、この正規分布が半径または「重心からの距離」に対するものであることを認識している場合に意味があります。もう1つの変数である角度はランダムで、0-piから均一に分布します。

— ハック
ソース

負になることのない半径には、絶対正規分布はありません。

— whuber