データセットの次元の推定


9

適用された統計の同僚が私にこれを送りました:

「関数のドメインの真の次元を見つける方法を知っているかどうか疑問に思っていました。たとえば、円は2次元空間の1次元関数です。描画方法がわからない場合は、私が計算できる統計は、それが2次元空間の1次元オブジェクトであることを教えてくれますか?これを高次元の状況で行う必要があるため、絵を描くことができません。

ここでの次元の概念は明らかに不明確です。つまり、高次元空間内の点の任意の有限コレクションを介して曲線を実行でき、データは1次元であると言えます。ただし、構成によっては、より高い次元のセットとしてデータを説明するためのより簡単またはより効率的な方法がある場合があります。

そのような問題は統計文献で考慮されたに違いないが、私はそれについてよく知らない。ポインタや提案はありますか?ありがとう!

回答:


7

見る

Levina、E.およびBickel、P.(2004)「固有次元の最尤推定。」神経情報処理システムの進歩17

http://books.nips.cc/papers/files/nips17/NIPS2004_0094.pdf

そのアイデアは、データが滑らかな密度から採取された場合、すなわちに埋め込まれたと次いで、半径の小球中のデータ点の局所的に数おおよそポアソン過程のように動作します。プロセスの速度はボールの体積に関連し、ボールの体積は固有の次元に関連しています。R p m < p tRメートルRpメートル<pt


1
+1いい発見!このペーパーでは、PCAアプローチ(およびその他のいくつかの方法)についても簡単に説明しています。
whuber

どうもありがとう、これは私の同僚が探していたものに最も近いと思います。

7

主成分分析ローカルデータは、出発の良い点です。ただし、ローカル(固有)の次元とグローバル(外部)の次元を区別するために、いくつかの注意が必要です。円上の点の例では、ローカル次元は1ですが、全体的に円内の点は2D空間にあります。これにPCAを適用するための秘訣は、ローカライズすることです。1つのデータポイントを選択し、それに近いものだけを抽出します。このサブセットにPCAを適用します。大きな固有値の数は、固有の次元を示唆します。他のデータポイントでこれを繰り返すと、データが全体にわたって一定の固有次元を示すかどうかを示します。その場合、各PCA結果は部分的なアトラスを提供します マニホールドの。


お返事ありがとうございます。同僚に渡します。

3

「関数のドメイン」の部分についてはわかりませんが、Hausdorff Dimensionがこの質問に答えているようです。これは、単純な例(たとえば、円はハウスドルフ次元1)に同意するという奇妙な特性を持っていますが、一部のセット(「フラクタル」)に対して非積分結果を与えるという性質があります。


1
さらに実用的な統計のために、ボックスカウント次元と言ってもいいでしょう。
Raskolnikov

2

私はこの調査を読むことを強くお勧めします: Camastra、F.(2003)。データ次元推定法:調査。パターン認識36(12)、2945-2954

この推定を実行するために、MATLAB Matlab Toolbox for Dimensionality Reductionに非常に優れたツールボックスが見つかりました。ツールボックスには、次元削減の手法に加えて、固有の次元推定のための6つの手法の実装が含まれています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.