多変量モードの計算効率の高い推定


14

ショートバージョン:連続分布からサンプリングされた多次元データセットのモードを推定する最も計算効率の良い方法は何ですか?

長いバージョン:モードを推定する必要があるデータセットがあります。モードは平均値または中央値と一致しません。サンプルを以下に示します。これは2Dの例ですが、NDソリューションの方が適しています。 ここに画像の説明を入力してください

現在、私の方法は

  1. モードの望ましい解像度に等しいグリッドでカーネル密度推定を計算します
  2. 計算された最大の点を探す

明らかに、これは多くの妥当ではないポイントでKDEを計算します。これは、高次元のデータポイントが多数ある場合、またはモードで良好な解像度が期待できる場合は特に悪いことです。

別の方法として、シミュレーテッドアニーリング、遺伝的アルゴリズムなどを使用して、KDEのグローバルピークを見つけることができます。

問題は、この計算を実行するよりスマートな方法があるかどうかです。


答えはわかりませんが、いい質問だと思います。私があなたが述べたものよりも良いアプローチを考えるのは難しいです。多変量と比較して、単変量カーネル推定へのアプローチには違いがあると思います。David Scottによるこの本は、多変量カーネルアプローチに関して役立つかもしれませんが、彼がピークハンティングについて説明しているとは思えません。 amazon.com/...
マイケルR. Chernick

回答:


7

KKf(x)Kf(x)K

アルゴリズムの非常に詳細な説明は、このブログエントリにも記載されています。


3
素敵な参考文献であるラリーワッサーマン氏は最近、この手法の詳細を説明する短い記事であるThe Amazing Mean Shift Algorithmも発表しました
アンディW

1
@AndyWグッドコール!Larry Wassermanの投稿(および彼のブログ全般)は素晴らしいものです。コメントを調べてみると、平均シフト、中間シフト、およびバリアントのQuickShiftに関するこの例示的な参照が見つかりました。
Sameer

2
ありがとう。それが最速かどうかはわかりませんが、確かに極大値を見つけます。以下は、いくつかの合成データの軌跡と学習率のプロットです
tkw954

9

あなたの主な関心が2次元の問題である場合、カーネル密度の推定は優れた漸近的な特性を持っているため、良い選択だと思います(これが最良であるとは言っていません)。例を見る

パーゼン、E(1962)。確率密度関数とモードの推定に関するAnnals of Mathematical Statistics 33:1065–1076。

de Valpine、P.(2004)。重み付き事後カーネル密度推定によるモンテカルロ状態空間尤度Journal of the American Statistical Association 99:523-536。

より高い次元(4+)の場合、最適な帯域幅行列を推定することはよく知られている問題があるため、この方法は本当に遅くなります。を参照してください

さて、ksパッケージ内のコマンドの問題KDEは、あなたが述べたように、それが特定のグリッドの密度を評価することです。この問題はKDE、たとえばを使用して帯域幅行列を推定するためのパッケージを使用しHscv、カーネル密度推定器を実装してから、コマンドを使用してこの関数を最適化すると解決できますoptim。これを、シミュレーションデータとのガウスカーネルを使用して以下に示しますR

rm(list=ls())

# Required packages
library(mvtnorm)
library(ks)

# simulated data
set.seed(1)
dat = rmvnorm(1000,c(0,0),diag(2))

# Bandwidth matrix
H.scv=Hlscv(dat)

# [Implementation of the KDE](http://en.wikipedia.org/wiki/Kernel_density_estimation)
H.eig = eigen(H.scv)
H.sqrt = H.eig$vectors %*% diag(sqrt(H.eig$values)) %*% solve(H.eig$vectors)
H = solve(H.sqrt)
dH = det(H.scv)

Gkde = function(par){
return( -log(mean(dmvnorm(t(H%*%t(par-dat)),rep(0,2),diag(2),log=FALSE)/sqrt(dH))))
}

# Optimisation
Max = optim(c(0,0),Gkde)$par
Max

たとえば、形状制限のある推定量はより高速になる傾向があります。

Cule、ML、Samworth、RJおよびStewart、MI(2010)。多次元ログコンケーブ密度の最尤推定Journal Royal Statistical Society B 72:545–600。

しかし、彼らはこの目的のためにピークに達しています。

4

使用を検討する可能性のある他の方法は、次のとおりです。

Abraham、C.、Biau、G.およびCadre、B.(2003)。多変量密度のモードの簡単な推定カナダ統計統計 31:23–34。

これがお役に立てば幸いです。


0

最近、高速整合モード推定器を提案する論文を発表しました。

PS RuzankinおよびAV Logachov(2019)。多次元空間における高速モード推定量。 統計と確率の手紙

O(dn)dn

私の最近の論文から、新しい最小分散モード推定器も提案します

PS Ruzankin(2020)。ノンパラメトリックモード推定器のクラス。 統計におけるコミュニケーション-シミュレーションと計算

O(dn2)nRd

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.