ノンパラメトリック混合モデルとクラスター


8

ノンパラメトリック混合アプローチで処理しようと考えているクラスターについて質問があります(私はそう思います)。人間の関わりの説明に取り組んでいます。
私のデータベースの各行には以下が含まれます:

  1. 誰かのID
  2. 環境Xのいくつかのパラメータ(例:温度、風など)
  3. パラメータに対する人の反応を表すバイナリ変数Y(例:天候のために病気になるか、病気にならない)。

私の考え(データではなく直感に基づく)は、有限数のグループに人々を集めて、グループ内の人々が同じように温度に反応できるようにすることです(簡単に病気になる人もいれば、決して病気にならない人もいます...)。 。特定のグループでは、より正式には、パラメーターXを条件とするYの法則は同じです。

Xを条件とするYの法則を知りません。パラメータXについては、必要に応じていくつかの仮説を立てることができます。

パラメータに対する同じ反応を「多かれ少なかれ持っている」人々のクラスタを作成したいと思います。さらに、パラメーターの特定の値に対する特定の人の反応を予測したいと思います(このイベントがデータベースで発生したことがない場合でも)。

(Xi,Yi)XiYiXi

Xi

  • 私のアプローチは正しいですか?
  • この問題について別の見方をお勧めしますか?

私はそれについてのどんな参考文献にも非常に興味があります。
問題の説明を再定式化するよう私に頼むことを躊躇しないでください。


1
データにラベルを付けたので、これは単に監視ありの分類問題であり、必要なのはバイナリ分類器です。どの分類子が「最適」に機能するかは、個人の好みと特定の問題の問題です。間違いなく、私は最初にいくつかの標準的なオプション(SVM、決定木など)を試してから、よりエキゾチックなものを試してみました。
iliasfl 2014

セットの構造に興味がない限り、@ iliasflのコメントは完全に有効です。分類子の学習手法は有効です。それ以外の場合は、教師なし学習を使用する必要があります。ノンパラメトリックモデルを試す前に、クラスターの数を推定できる場合は、ガウス混合を分離するためのより簡単なEMアルゴリズム、または単にk平均クラスタリングを試すことができます。次に、その結​​果を分類に使用したり、生データを再度分類したりできます。
ローマシャポバロフ2014

回答:


1

あなたのポイントに答える「でしょうが、あなたはこの問題のために別の視点をアドバイス?」、私はあなたが実際に持っていることを示唆している見て、あなたのデータでは。これは、次のステップをより適切に計画するのに役立ちます。結局のところ、人間の目と脳のシステムはパターン認識において非常に優れており、教師なしクラスタリングを選択した場合、クラスタの数をより適切に決定できる可能性があります。

したがって、データが「高」次元のように見えるため、主成分分析(PCA)を実行してみることができます。これは、特に100kポイントのデータセットの場合、非常に迅速な分析であるためです。ただし、PCAはパラメトリックな線形メソッドであるため、(2D / 3D)視覚化を目的とした次元削減の唯一のアプローチではなく、必ずしも最も適切なアプローチでもありません。ただし、データは非線形に動作する場合があります。Laurens van der MaatenのMatlab用次元削減ツールボックスを提案できます。これには、さまざまなテクニックが含まれています。ただし、そこに含まれる手法の一部は本質的に低速であるため、サブサンプリングされたデータでそれらをテストすることをお勧めします。ごく最近の強力なノンパラメトリックおよび非線形次元削減手法はBH-SNEです。使用可能なハードウェアに応じて、約30分から1時間かかる場合がありますが、これはデータセットのサイズにも有効です。クラスターの検出に関心があるので、BH-SNE(および「前身」のt-SNE)は、さまざまなデータセット(原稿)でこれらの点で印象的なパフォーマンスを示しているため、BH-SNEが良い選択となる場合があります。

最後に、継続的/離散的なデータに関するあなたのポイントを取り上げますが、これは、これが次元削減にどのように影響するかについて、まだ経験がありません。したがって、可能であれば、連続変数を離散化するか、(いくつかの)離散変数を無視することをお勧めします。または、バイナリ変数(人の反応)を取得して、低次元(2D / 3D)視覚化のポイントを色分けすることもできます。

PS階層的クラスタリング(リンケージ分析)を実行し、結果の樹状図を確認することは、データの低次元表現を作成するもう1つの方法であり、クラスターがあるかどうか、また場合によってはクラスターの数を推定するのに役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.