いくつかのデータポイントがあり、それぞれに5つのベクトルの凝集した離散結果が含まれ、各ベクトルの結果は異なる分布によって生成されます(特定の種類は定かではありませんが、私の最良の推測はワイブルで、形状パラメーターは指数関数の周りで変化します)法律(1〜0、大体)。)
K-Meansなどのクラスタリングアルゴリズムを使用して、5つのコンポーネント分布の属性に基づいて各データポイントをグループに入れたいと考えています。これらの目的に適した確立された距離メトリックがあるかどうか疑問に思っていました。これまでに3つのアイデアがありましたが、私は経験豊富な統計学者ではありません(データマイニングコンピューター科学者の始まりです)。
私が扱っている分布の種類が正確にはわからないので、問題に対する私の総当たり的なアプローチは、各分布(1ポイントあたり5つ)をそれぞれの個別のデータ値に分割することでした(I padそれぞれが同じ長さに対応し、最後にゼロが付いています)、これらの各値をデータポイント自体の個別の属性として使用します。PDFとCDFの両方について、これらの属性に基づくメトリックとしてマンハッタン距離とユークリッド距離の両方を使用してみました。
繰り返しますが、どのような分布があるのかわからないので、全体の分布間の距離を測定する場合、KSテストなどの分布間でペアである種のノンパラメトリックテストを使用できると考えました、特定の分布が異なるPDFによって生成された可能性を見つけるため。マンハッタン距離を使用する最初のオプション(上記)は、このアプローチを使用して得られるものの一種の上限になると考えました(KS統計はCDFの差の最大絶対値であり、マンハッタン距離はPDFの差の絶対値の合計)。次に、おそらくユークリッド距離を使用して、各データポイント内で異なるKS統計値またはP値を結合することを検討しましたが、これらの値のすべての最大値を取得することもできます。
最後に、分布の形状についてほとんど解釈できないものを使用するために、ワイブル曲線に適合するように分布のパラメーターを推定しようと考えました。次に、ワイブル分布の2つのパラメーター、ラムダとk(スケールと形状)の違いに基づいて分布をクラスター化できます。おそらく、これらのパラメーターの分散またはある種のものに従って正規化されます。これは、パラメーターを正規化する方法のアイデアがあると思った唯一のケースです。
それで、私の質問は、分布のクラスタリングのためにどのような尺度/方法をお勧めしますか?私はこれらのどれでも正しい軌道に乗っていますか?K-Meansは使用するのに適したアルゴリズムでもありますか?
編集:データの明確化。
各データポイント(Obj
クラスター化する各オブジェクト)には5 vectors
、実際には文字通りデータが含まれています。これらのオブジェクトが入ることができるフェーズは正確に5つあることを知っています。(単純化のために)各ベクトルはであると言いますlength N
。
これらのベクターの各々は(それを呼び出すvector i
)整数の確率分布であるx-values
各対応するY値が測定される確率を表し、N、スルー1のvalue x
中phase i
のオブジェクトのをObj
。Nは、オブジェクトの任意のフェーズで測定する予定の最大x値です(これは実際の分析では固定値ではありません)。
これらの確率は次の方法で決定します。
私はシングルを取り、各トライアルで測定を行うため
Obj
にそれを入れました。各測定は単一の整数です。これは、単一オブジェクトの5つのフェーズのそれぞれに対して、そして各オブジェクトに対して順番に行います。単一のオブジェクトの生の測定データは次のようになります。phase i
k trials
ベクトル1. [90、42、30、9、3、4、0、1、0、0、1]
ベクトル2。[150、16、5、0、1、0、0、0、0、0、0]
...
ベクトル5. [16、... ...、0]
次に、与えられたベクトル内の測定の総数に関して、各ベクトルを独自に正規化します。これにより、そのベクトルの確率分布が得られます。対応する各y値は、で測定さ
value x
れる確率を表しphase i
ます。