誰もがL 2ではなく、またはL .5メトリックをクラスタリングに使用していますかますか?
Aggarwal et al。、
高次元空間での距離メトリックの驚くべき振る舞いについて
(2001年)
は、ユークリッド距離計量よりも一貫して好ましい 、高次元データマイニングアプリケーションで L 2
そして、またはがさらに優れているました。
L 1を使用する理由または、理論的または実験的である可能性があります。たとえば、外れ値/カバンの論文に対する感度、または実際のデータまたは合成データで実行されるプログラムです(再現可能)。例や写真は、私の素人の直感を助けるでしょう。
この質問は、ボブ・デュラントの回答に対するフォローアップです When-is-nearest-neighbor-meaningful-todayです。彼が言うように、の選択はデータとアプリケーションの両方に依存します。それにもかかわらず、実際の経験のレポートは有用でしょう。
6月7日火曜日に追加されたメモ:
私は、「L1-ノルムおよび関連する方法に基づく統計データ分析」、Dodge ed。、2002、454p、isbn 3764369205 —多数の会議論文に出くわしました。
誰でもiid指数関数の距離集中を分析できますか?指数関数の1つの理由は ; 別の(専門家ではない)は、最大エントロピー分布が 0 以上であることです。3つ目は、一部の実際のデータセット、特にSIFTはほぼ指数関数的に見えることです。