3
多変量モードの計算効率の高い推定
ショートバージョン:連続分布からサンプリングされた多次元データセットのモードを推定する最も計算効率の良い方法は何ですか? 長いバージョン:モードを推定する必要があるデータセットがあります。モードは平均値または中央値と一致しません。サンプルを以下に示します。これは2Dの例ですが、NDソリューションの方が適しています。 現在、私の方法は モードの望ましい解像度に等しいグリッドでカーネル密度推定を計算します 計算された最大の点を探す 明らかに、これは多くの妥当ではないポイントでKDEを計算します。これは、高次元のデータポイントが多数ある場合、またはモードで良好な解像度が期待できる場合は特に悪いことです。 別の方法として、シミュレーテッドアニーリング、遺伝的アルゴリズムなどを使用して、KDEのグローバルピークを見つけることができます。 問題は、この計算を実行するよりスマートな方法があるかどうかです。