クラスタリングの


14

誰もがL 2ではなく、またはL .5メトリックをクラスタリングに使用していますかL1L.5L2ますか?
Aggarwal et al。、 高次元空間での距離メトリックの驚くべき振る舞いについて (2001年)

は、ユークリッド距離計量よりも一貫して好ましい L1、高次元データマイニングアプリケーションで L 2L2

そして、L.5またはがさらに優れているました。L.1

L 1を使用する理由L1または、理論的または実験的である可能性があります。たとえば、外れ値/カバンの論文に対する感度、または実際のデータまたは合成データで実行されるプログラムです(再現可能)。例や写真は、私の素人の直感を助けるでしょう。L.5

この質問は、ボブ・デュラントの回答に対するフォローアップです When-is-nearest-neighbor-meaningful-todayです。彼が言うように、の選択はデータとアプリケーションの両方に依存します。それにもかかわらず、実際の経験のレポートは有用でしょう。p


6月7日火曜日に追加されたメモ:

私は、「L1-ノルムおよび関連する方法に基づく統計データ分析」、Dodge ed。、2002、454p、isbn 3764369205 —多数の会議論文に出くわしました。

誰でもiid指数関数の距離集中を分析できますか?指数関数の1つの理由は ; 別の(専門家ではない)は、最大エントロピー分布 0 以上であることです。3つ目は、一部の実際のデータセット、特にSIFTはほぼ指数関数的に見えることです。|expexp|exp


Aggarwal等に言及することは重要です。その特定の記事では、クラスタリング、最近傍、インデックス付けなどの問題でノルムの動作を探しています。Lp
deps_stats

関数のL pではなく、シーケンスのメトリックを意味するのでしょうか?私の意見では、最適化の基準があれば、問題を解決して最適化できます。経験則は通常、そのような正確な解決策に関連しています。とにかく、knnソリューションのプロパティが優先されることを考えてみてください。私が記事を読んだ後、おそらくこのトピックについてもう少し言うことができるでしょう。lpLp
ドミトリーチェロフ

@deps_stats、はい、ありがとう。タイトルと最初の行を変更しました。@ Dmitrij、1)はい、little-lは厳密に言えば正しいですが、big-Lは一般的で理解しやすいです。2)はい、特定の問題に最適なpを見つけることができますが、最初の選択肢は何ですか?
デニス

回答:


6

ここで重要なのは、論文が参照する「次元の呪い」を理解することです。ウィキペディアから:次元の数が非常に大きい場合、

高次元空間のほぼすべてが中心から「遠く」離れているか、別の言い方をすれば、高次元単位空間はほとんど完全にハイパーキューブの「角」で構成されていると言えます。 "中間"

その結果、どのポイントが他のどのポイントに近いかを考えるのは難しくなります。これらのポイントはほぼ同じくらい離れているからです。これは、最初にリンクした論文の問題です。

高いpの問題は、大きな値を強調することです。5乗と4乗は9ユニット離れていますが、1乗と2乗は3ユニットしか離れていません。そのため、大きな寸法(隅にあるもの)がすべてを支配し、コントラストが失われます。したがって、この長距離の膨張は避けたいものです。分数pを使用すると、より小さな次元(実際には中間値を持つ次元)の違いに重点が置かれ、コントラストが向上します。


(+1)それで、@ David、一般にコントラストの品質を記述する基準はありますか?
ドミトリーチェロフ

リンクした最初の論文が、最大距離から最小距離を引いたものを示唆しているようです。しかし、もっと良い方法があります。
デビッドJ.ハリス

明確な直観、+ 1(距離分布のコーナーがどこにあるかは明確ではありませんが)。実際のデータでまたはL .5を使用しましたか?L1L.5
デニス

1
@Denisありがとう!データがほとんどまたはすべての次元にバインドされている場合、コーナービットが最も理にかなっていると思います。とにかく、クラスタリングの経験が足りないので、さまざまなメトリックについての良い直観を持っているとは思いません。迷惑なことがあるよう、最善のアプローチは、いくつかを試してみて、何が起こるかを見るためにあるかもしれない
デヴィッド・J.ハリス

1

pが1から5の間のLpメトリックを使用した論文をご覧ください。

Amorim、RC and Mirkin、B.、Minkowski Metric、Feature-Weighting and Anomalous Cluster Initialization in K-Means Clustering、Pattern Recognition、vol。45(3)、pp。1061-1075、2012

ダウンロード、 https: //www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf


0

あなたのものが推論の問題であるかどうかはわかりません。問題からベクトルを推論である場合前推測が言うとき(閉凸セットを定義する必要があります)、特定の制約の下でuは次にベクターを最小化することによって推定される与えられ2から-distanceをU場合(制約セットに対して前のuはちょうど最小限にすることによって、その与えられない2Rnu2uu2)ノルムを。上記の原則は、このホワイトペーパーhttp://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385で特定の状況下で行う正しいこととして正当化されています。


伝統とCsiszarは、Aggarwalと他のいくつかのL 1またはL .5または...と言います 確固たる理由がなければ、それはあなたの考え方/以前の信念に依存していると思います。L2L1L.5
デニス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.