すべての可能なペアを使用して正規混合分布を作成する密度推定法の名前は何ですか？

私はちょうど一次元の密度推定値を作成するきちんとした（必ずしも良いとは限りません）方法を考えました、私の質問は：

この密度推定方法には名前がありますか？そうでない場合、それは文献の他の方法の特殊なケースですか？

ここでの方法である：我々は、ベクターが有する $X = [x_1,x_2,...,x_n]$ は、推定したい未知の分布から引き出されたと仮定します。これを行う方法は、すべての可能な値のペアを取得し、各ペアに対してを最尤法を使用して正規分布に適合させることです。結果の密度推定値は、結果のすべての法線で構成される混合分布になり、各法線には同じ重みが与えられます。 $X$ $[x_i,x_j]_{i \neq j}$

次の図は、ベクトルこのメソッドを使用する方法を示しています。ここで、円はデータポイント、色付きの法線は可能な各ペアを使用して推定された最尤分布、太い黒線は結果の密度推定（混合分布）を示しています。 $[-1.3,0.15,0.73,1.4]$

ここに画像の説明を入力してください

ところで、結果の混合分布からサンプルを引き出すRのメソッドを実装するのは本当に簡単です。

# Generating some "data"
x <- rnorm(30)

# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
  pair <- sample(x, size = 2)
  rnorm(1, mean(pair), sd(pair))
})

# Plotting the density estimate compared with 
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')

ここに画像の説明を入力してください

— ラスマス・バース
ソース

メソッドを使用して試してくださいx <- c(rnorm(30), rnorm(30, 10))

— -Dason

@Dason Yep、その場合、メソッドはまったく機能しません！:)また、大きなnで収束しません。

— ラスマスバース

これは、相互検証によって帯域幅が推定されるカーネル密度推定の破損バージョンのように聞こえます！

— 西安

X = [x_{1}, x_{2}, \dots, x_{n}]

$X=[x_1,x_2,\ldots,x_n]$

n

$n$

標準偏差の推定量は、通常の二乗平均平方根アプローチよりも外れ値の影響を受けにくいため、これは興味深いアイデアです。ただし、この推定量が公開されているとは思えません。 理由は3つあります。計算が非効率的であり、バイアスがかかっています。バイアスが修正されても、統計的に非効率的です（ただし、ほんのわずかです）。これらは少し予備的な分析で見ることができるので、まずそれを行ってから結論を導きましょう。

分析

$\mu$ $\sigma$ $(x_i, x_j)$

\hat{μ} (x_{i}, x_{j}) = \frac{x_{i} + x_{j}}{2}

$\hat\mu(x_i,x_j) = \frac{x_i+x_j}{2}$

そして

\hat{σ} (x_{i}, x_{j}) = \frac{| x_{i} - x_{j} |}{2} .

$\hat\sigma(x_i,x_j) = \frac{|x_i-x_j|}{2}.$

したがって、質問で説明されている方法は

\hat{μ} (x_{1}, x_{2}, \dots, x_{n}) = \frac{2}{n (n - 1)} \sum_{i > j} \frac{x_{i} + x_{j}}{2} = \frac{1}{n} \sum_{i = 1}^{n} x_{i},

$\hat\mu(x_1, x_2, \ldots, x_n) = \frac{2}{n(n-1)} \sum_{i\gt j} \frac{x_i+x_j}{2} = \frac{1}{n}\sum_{i=1}^nx_i,$

これは平均の通常の推定量であり、

\hat{σ} (x_{1}, x_{2}, \dots, x_{n}) = \frac{2}{n (n - 1)} \sum_{i > j} \frac{| x_{i} - x_{j} |}{2} = \frac{1}{n (n - 1)} \sum_{i, j} | x_{i} - x_{j} | .

$\hat\sigma(x_1, x_2, \ldots, x_n) = \frac{2}{n(n-1)}\sum_{i\gt j}\frac{|x_i-x_j|}{2} = \frac{1}{n(n-1)}\sum_{i,j}|x_i-x_j|.$

$E = \mathbb{E}(|x_i-x_j|)$ $i$ $j$

E (\hat{σ} (x_{1}, x_{2}, \dots, x_{n})) = \frac{1}{n (n - 1)} \sum_{i, j} E (| x_{i} - x_{j} |) = E .

$\mathbb{E}(\hat\sigma(x_1, x_2, \ldots, x_n)) = \frac{1}{n(n-1)}\sum_{i,j}\mathbb{E}(|x_i-x_j|) = E.$

$x_i$ $x_j$ $2\sigma^2$ $\sqrt{2}\sigma$ $\chi(1)$ $\sqrt{2/\pi}$

E = \frac{2}{\sqrt{π}} σ .

$E = \frac{2}{\sqrt{\pi}} \sigma.$

$2/\sqrt{\pi} \approx 1.128$

$\hat\sigma$

結論

$\hat\sigma$ $n=20,000$
$\sum_{i,j}|x_i-x_j|$ $O(n^2)$ $O(n)$ $n$ $10,000$ R。（他のプラットフォームでは、おそらく計算時間にわずかなコストがかかりますが、RAM要件ははるかに小さくなります。）
統計的に非効率的です。 それに最高の上映を与えるために、聞かせてのは、公平なバージョンを検討し、それを比較する公平な最小二乗法や最尤推定量のいずれかのバージョン

${\hat{σ}}_{O L S} = \sqrt{(\frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i} - \hat{μ})}^{2})} \frac{(n - 1) Γ ((n - 1) / 2)}{2 Γ (n / 2)} .$ $\hat\sigma_{OLS} = \sqrt{\left(\frac{1}{n-1} \sum_{i=1}^n \left(x_i - \hat\mu\right)^2\right)} \frac{(n-1)\Gamma((n-1)/2)}{2\Gamma(n/2)}.$
R $n=3$ $n=300$ $\hat\sigma_{OLS}$ $\sigma$

その後

$\hat\sigma$

コード

sigma <- function(x) sum(abs(outer(x, x, '-'))) / (2*choose(length(x), 2))
#
# sigma is biased.
#
y <- rnorm(1e3) # Don't exceed 2E4 or so!
mu.hat <- mean(y)
sigma.hat <- sigma(y)

hist(y, freq=FALSE,
     main="Biased (dotted red) and Unbiased (solid blue) Versions of the Estimator",
     xlab=paste("Sample size of", length(y)))
curve(dnorm(x, mu.hat, sigma.hat), col="Red", lwd=2, lty=3, add=TRUE)
curve(dnorm(x, mu.hat, sqrt(pi/4)*sigma.hat), col="Blue", lwd=2, add=TRUE)
#
# The variance of sigma is too large.
#
N <- 1e4
n <- 10
y <- matrix(rnorm(n*N), nrow=n)
sigma.hat <- apply(y, 2, sigma) * sqrt(pi/4)
sigma.ols <- apply(y, 2, sd) / (sqrt(2/(n-1)) * exp(lgamma(n/2)-lgamma((n-1)/2)))

message("Mean of unbiased estimator is ", format(mean(sigma.hat), digits=4))
message("Mean of unbiased OLS estimator is ", format(mean(sigma.ols), digits=4))
message("Variance of unbiased estimator is ", format(var(sigma.hat), digits=4))
message("Variance of unbiased OLS estimator is ", format(var(sigma.ols), digits=4))
message("Efficiency is ", format(var(sigma.ols) / var(sigma.hat), digits=4))

— ウーバー
ソース

関連する文献は少し前に遡ります。例えば、Downton、F. 1966多項式係数による線形推定。Biometrika 53：129-141 doi：10.1093 / biomet / 53.1-2.129

— ニックコックス

うわー、私は思っていたよりも多くを得ました！:)

— ラスマスバース