1Dデータが1つまたは3つの値の周りにクラスター化されているかどうかを定量的に確認するにはどうすればよいですか?


9

人間の心拍間の時間に関するデータがあります。異所性(追加)ビートの1つの兆候は、これらの間隔が1つではなく3つの値に集中していることです。どうすればこれを定量的に測定できますか?

私は複数のデータセットを比較したいと考えています。これら2つの100ビンヒストグラムはそれらすべての代表です。

ここに画像の説明を入力してください

分散を比較することもできますが、アルゴリズムで、各ケースに1つまたは3つのクラスターがあるかどうかを、他のケースと比較することなく検出できるようにしたいと考えています。

これはオフライン処理用であるため、必要に応じて多くの計算能力を利用できます。


回答:


3

私は強く助言に対して、ここでK-手段を用いて。kの異なる値の結果は、あまりよく比較できません。このメソッドは、大まかなヒューリスティックです。本当にクラスタリングを使用したい場合は、EMクラスタリングを使用してください。データには正規分布が含まれているようです。そして、結果を検証してください!

代わりに、明らかなアプローチは、単一のガウス関数をフィッティングして(たとえば、Levenberg-Marquard法を使用して)3つのガウス関数をフィッティングすることです。

次に、2つの分布のどちらがより適しているかをテストします。


おかげで、私はレーベンバーグ・マルカートを知りませんでした!これらのクラスターはガウスではありません。ガウス関数がそれらに適合する最良のPDFであるとまだ思いますか?
ニコラウス

これとGreg Snowに+1します。私はこのアドバイスに完全に同意します。@Nikolausこれは、ガウス分布の混合に適合するのに「十分ガウス」に見えると思います。完全な適合は必要ありません。クラスターの数を確認する方法にすぎません。この光学系では、すべてのコンポーネントが同じ標準偏差を共有するように制限することをお勧めします(Anony-Mousseによって説明されている理由により)。
Elvis

彼らは明らかに私には十分ガウシアンに見えます。K平均法は、ボロノイセルを使用してデータをモデル化します。最良のスプリットポイントが2つの隣接する平均のちょうど真ん中にあると想定することは、私には賢明ではないようです。
QUITあり-Anony-Mousse 2012年

6

3つの正規分布の混合のような混合分布をデータに適合させ、その適合の可能性を単一の正規分布の適合と比較します(尤度比検定またはAIC / BICを使用)。のflexmixパッケージRが役立つかもしれません。



2

K平均クラスタリングアルゴリズムを使用して、さまざまな手段を特定する

Rシークで関数KNNを探し、適切な関数を見つけます。


1
ああ、私はちょうどそれを投稿しようとしていた!コードとwhatnotsについては、このリンクを参照することもできます。statmethods.net/ advstats
King

Matlabのkmeans機能を試してみました。結果の平均は、試行錯誤によって大きく異なります。(この実装のヒューリスティックは悪いですか?)1クラスターセットの場合、平均(270,293,693)が時々、(260,285,308)が時々得られます。3クラスタセットの場合、一部の回答は(196,324,468、)と(290,459,478)です。
ニコラウス

データを貼り付ける場所はありますか?
ニコラウス

ああ、その693の意味について:合計755の値のうち、532と855の2つの明らかな外れ値があります。残りの値はすべてヒストグラムで確認できます。
ニコラウス

あなたはk-meansから得られる手段を超えて、それらが実際にあなたのデータをどれだけうまく説明しているかを見る必要があります!
QUITあり-Anony-Mousse 2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.