ディストリビューションのクラスタリング


10

複数のディストリビューションがあります(下の図では10のディストリビューション)。 分布

実際、これらはヒストグラムです。x軸には70の値があり、これは溶液中のいくつかの粒子のサイズです。xの各値について、対応するyの値は、サイズがxの値に近い粒子の比率です。

これらの分布をクラスター化したいと思います。現在私は、例えばユークリッド距離による階層的クラスタリングを使用しています。私は距離の選択に満足していません。Kullback-Leiblerなどの情報理論上の距離を試しましたが、データにゼロが多数あり、これにより問題が発生します。適切な距離や他のクラスタリング方法の提案はありますか?

回答:


15

すべての分布が同じ70の離散値を取る可能性があることを理解しています。そうすれば、分布の累積曲線を簡単に比較できます(累積曲線の比較は、分布を比較する一般的な方法です)。これは、形状、場所、広がりの違いに関するオムニバス比較になります。

(A、B、...等は分布です)のような形式でデータを準備します

Value CumProp_A CumProp_B ...
1       .01       .05
2       .12       .14
...     ...       ...
70      1.00      1.00

分布間の距離行列を計算します。階層的クラスタリングに送信します(完全なリンク方法をお勧めします)。距離は?さて、2つの累積曲線が1つの値(b)だけ離れている場合に非常に異なると考える場合は、チェビシェフ距離を使用します。2つの累積曲線が非常に異なると考えるのは、一方が広範囲の値(c)に沿って他方が安定している場合のみである場合は、自己相関距離を使用します。曲線間の局所的な違いが重要な場合(a)、マンハッタン距離を使用します。

ここに画像の説明を入力してください

PS自己相関距離は、累積曲線XとYの間の差の自己相関の非正規化係数にすぎません。

i=2N(XY)i(XY)i1


すばらしい-多くの感謝!私はこの明日行います
ステファン・ローラン

自己相関距離はおそらく負です。それは本当に良い定義ですか?
ステファン・ローラン

私は別の質問をするのを忘れました:なぜ完全なリンケージを勧めますか?
ステファン・ローラン

負の商品条件がある場合は、ゼロに設定できます。私は完全な連鎖を主張するのではなく、距離がユークリッドではないため、ウォードやセントロイドのような「幾何学的」な方法に対して警告します。完全なリンケージのような「拡張的」な方法はあなたの好みに
合う

4

データがヒストグラムの場合は、「ヒストグラムの交差距離」など、適切な距離関数を調べることができます。

ELKIと呼ばれるツールがあり、さまざまなクラスタリングアルゴリズム(k平均法や階層的クラスタリングよりもはるかに新しいもの)があり、ほとんどのアルゴリズムで使用できるヒストグラム交差距離のバージョンも含まれています。その中で利用可能なアルゴリズムのいくつかを試してみるとよいでしょう。あなたが上で与えたプロットから、あなたが何をしたいのか私にはわかりません。個々のヒストグラムをグループ化しますよね?上記の10個から判断すると、クラスターがない可能性があります。


ありがとう。しかし、私はRまたはSASで利用可能なツールを探しています。次に、上記の10個の分布は1つの例にすぎません。クラスタ化する一連の分布がたくさんあります。
ステファン・ローラン

2

いくつかの特徴抽出手法を使用して、k平均法またはその他のタイプのクラスタリングの記述子を導出することができます。

基本的なアプローチは、特定の分布をヒストグラムに適合させ、そのパラメーターを記述子として使用することです。たとえば、バイモーダル分布があり、2つの平均と2つの標準偏差で表すことができます。

別の可能性は、ヒストグラムのカウントの最初の2つまたは3つの主成分をクラスター化することです。

あるいは、ウェーブレット手法を使用することもできます。

このページでは、細胞外スパイクを処理するときにその方法を説明します。データは異なりますが、アイデアはあなたのケースに適用できるはずです。また、下部には多くのリファレンスがあります。

http://www.scholarpedia.org/article/Spike_sorting

Rでは、princompまたはprcomp関数を使用して、ピークの主成分を計算できます。ここにRのPCAに関するチュートリアルがあります。

ウェーブレットについては、waveletsパッケージをご覧ください。

k-meansクラスタリングは、kmeans関数を使用して実現できます。


おかげで、可能な限りあなたの提案を検討します。
ステファン・ローラン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.