クラスタリング確率分布-メソッドとメトリック?


13

いくつかのデータポイントがあり、それぞれに5つのベクトルの凝集した離散結果が含まれ、各ベクトルの結果は異なる分布によって生成されます(特定の種類は定かではありませんが、私の最良の推測はワイブルで、形状パラメーターは指数関数の周りで変化します)法律(1〜0、大体)。)

K-Meansなどのクラスタリングアルゴリズムを使用して、5つのコンポーネント分布の属性に基づいて各データポイントをグループに入れたいと考えています。これらの目的に適した確立された距離メトリックがあるかどうか疑問に思っていました。これまでに3つのアイデアがありましたが、私は経験豊富な統計学者ではありません(データマイニングコンピューター科学者の始まりです)。

  1. 私が扱っている分布の種類が正確にはわからないので、問題に対する私の総当たり的なアプローチは、各分布(1ポイントあたり5つ)をそれぞれの個別のデータ値に分割することでした(I padそれぞれが同じ長さに対応し、最後にゼロが付いています)、これらの各値をデータポイント自体の個別の属性として使用します。PDFとCDFの両方について、これらの属性に基づくメトリックとしてマンハッタン距離とユークリッド距離の両方を使用してみました。

  2. 繰り返しますが、どのような分布があるのか​​わからないので、全体の分布間の距離を測定する場合、KSテストなどの分布間でペアである種のノンパラメトリックテストを使用できると考えました、特定の分布が異なるPDFによって生成された可能性を見つけるため。マンハッタン距離を使用する最初のオプション(上記)は、このアプローチを使用して得られるものの一種の上限になると考えました(KS統計はCDFの差の最大絶対値であり、マンハッタン距離はPDFの差の絶対値の合計)。次に、おそらくユークリッド距離を使用して、各データポイント内で異なるKS統計値またはP値を結合することを検討しましたが、これらの値のすべての最大値を取得することもできます。

  3. 最後に、分布の形状についてほとんど解釈できないものを使用するために、ワイブル曲線に適合するように分布のパラメーターを推定しようと考えました。次に、ワイブル分布の2つのパラメーター、ラムダとk(スケールと形状)の違いに基づいて分布をクラスター化できます。おそらく、これらのパラメーターの分散またはある種のものに従って正規化されます。これは、パラメーターを正規化する方法のアイデアがあると思った唯一のケースです。

それで、私の質問は、分布のクラスタリングのためにどのような尺度/方法をお勧めしますか?私はこれらのどれでも正しい軌道に乗っていますか?K-Meansは使用するのに適したアルゴリズムでもありますか?

編集:データの明確化。

各データポイント(Objクラスター化する各オブジェクト)には5 vectors、実際には文字通りデータが含まれています。これらのオブジェクトが入ることができるフェーズは正確に5つあることを知っています。(単純化のために)各ベクトルはであると言いますlength N

これらのベクターの各々は(それを呼び出すvector i)整数の確率分布であるx-values各対応するY値が測定される確率を表し、N、スルー1のvalue xphase iのオブジェクトのをObj。Nは、オブジェクトの任意のフェーズで測定する予定の最大x値です(これは実際の分析では固定値ではありません)。

これらの確率は次の方法で決定します。

  1. 私はシングルを取り、各トライアルで測定を行うためObjにそれを入れました。各測定は単一の整数です。これは、単一オブジェクトの5つのフェーズのそれぞれに対して、そして各オブジェクトに対して順番に行います。単一のオブジェクトの生の測定データは次のようになります。phase ik trials

    ベクトル1. [90、42、30、9、3、4、0、1、0、0、1]

    ベクトル2。[150、16、5、0、1、0、0、0、0、0、0]

    ...

    ベクトル5. [16、... ...、0]

  2. 次に、与えられたベクトル内の測定の総数に関して、各ベクトルを独自に正規化します。これにより、そのベクトルの確率分布が得られます。対応する各y値は、で測定さvalue xれる確率を表しphase iます。


1
データポイントがどのように分布を「含む」ことができるかは、私には明らかではありません。例を挙げていただけますか?さらに、ワイブルは離散確率分布ではないため、追加の明確化が望まれます。
mpiktas

@mpiktas:各データポイントは、5つの異なるフェーズを持つオブジェクトを表します。オブジェクトの各フェーズの動作は理論的には連続確率分布関数で表すことができますが、データには離散サンプルのみが含まれています。ワイブル分布は、おそらく私のデータの背後にある「理論的な」関数ですが、データ自体は、離散間隔での密度の測定値にすぎません。
マシンの憧れ

回答:


5

(計算)情報ジオメトリは、この種の問題を正確に処理するフィールドです。K-meansには、Bregman k-meansと呼ばれる拡張機能があり、発散を使用します(標準K-meansの2乗ユークリッドが特定のケースですが、Kullback-Leiblerもあります)。与えられた発散は、分布に関連付けられます。たとえば、ユークリッドからガウスへの平方です。

また、たとえばFrank Nielsenの作品を見ることができます。

また、以前の投稿でEarth Mover Distanceとして言及されたWasserstein距離(最適な輸送)を見ることができます。


3

EP-Meansアルゴリズムに関する論文では、Hendersonらはこの問題へのアプローチをレビューし、独自のアプローチを示しています。彼らは考慮します:

  1. パラメータクラスタリング-分布の事前知識に基づいて分布のパラメータを決定し、それらのパラメータに基づいてクラスタ化する
    • ここでは、パラメータの推定値だけでなく、実際にデータの任意の関数を使用できることに注意してください。これは、データが異なる分布からのものであることがわかっている場合に便利です
  2. ヒストグラムのビニング-データをビンに分割し、各ビンを空間クラスタリングで使用される次元と見なします
  3. EP-Means(それらのアプローチ)-分布重心(クラスターに割り当てられたすべての分布の混合)を定義し、Earth Mover's Distance(期待値のようなもの)の平方和を最小化するL1 分布重心とそのクラスターに割り当てられた分布との間のCDF間の距離)。

私が成功して使用した別の手法は、すべての分布からすべての観測ポイントを個別にクラスター化し、その後、各クラスターに到達するポイントの割合に対応するソフト確率を分布iに割り当てます。マイナス面として、ディストリビューションをそのように分離するのははるかに困難です。良い面としては、一種の自動調整を行い、すべての分布が同じであると想定しています。ただし、その正規化プロパティが必要な場合にのみ使用します。


1
当サイトへようこそ!ここでは、ドル記号内にテキストを挿入することで、ラテックスマークアップを使用できます。たとえば$i$、または$l_2$生成l2、自分を表現しやすくすることができます
Silverfish

1

2つの手順で続行する必要があります。(1)データ削減と(2)クラスタリング。

ステップ(1)では、データを慎重に検査し、データの合理的な確率分布を決定する必要があります。このステップについてはすでに考えているようです。次のステップは、これらの分布のパラメーターを推定することです。クラスター化するユニットごとに個別にモデルを適合させるか、一般化線形混合モデルなどのより洗練されたモデルを使用することが適切な場合があります。

ステップ(2)では、これらのパラメーター推定値に基づいてクラスター化できます。この段階では、ユニットごとに少数のパラメーター推定値が必要です。この投稿への回答で説明したように、これらのパラメーター推定値に基づいてクラスター化できます。

この答えは必然的に曖昧です。ここには「定型の」解決策はありません。また、独自の問題に応じて、関連する可能性のあるほぼ無限の数のメソッドから選択するために、各ステップで大量の統計的洞察が必要です。あなたの質問の文は、あなたが自分でかなりの統計知識を自分で試したことを示していますが、それは賞賛に値しますが、確率分布と確率分布からの観測の区別など、コア統計概念の基本的な誤解がまだあります。数理統計学のコースを受講/監査することを検討してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.