ElasticSearchに保存されている顧客データのクラスタリング


10

クラスターに顧客プロファイルが保存されています。これらのプロファイルは、電子メールサブスクリプションのターゲットグループの作成に使用されます。

ターゲットグループは現在、elasticsearchファセット検索機能を使用して手動で形成されています(23歳のすべての男性顧客に1台の車と3人の子供を連れて行くなど)。

データサイエンス、機械学習、クラスタリングなどを使用して、興味深いグループを自動的に検索するにはどうすればよいですか?

プログラミング言語はこのタスクに適したツールのようですが、そのようなグループ検索の方法論を形成することはできません。1つの解決策は、何とかして最大の顧客クラスターを見つけてターゲットグループとして使用することです。そのため、問題は次のとおりです。

同様の顧客の最大のクラスターを自動的に選択するにはどうすればよいですか(現時点ではわからないパラメーターで同様)。

例:私のプログラムはelasticsearchに接続し、顧客データをCSVにオフロードし、R言語スクリプトを使用すると、大部分の顧客が子供を持たない男性であり、別の大部分の顧客が車を持ち、目の色が茶色であることがわかります。


1
「興味深いグループ」とはどういう意味ですか?事前に定義された重要な機能のリストはありますか?
ヤトゥル2014年

興味深いグループとは、他の可能なクラスターよりもはるかに大きい、あるしきい値よりも大きいサイズのグループです。
コンスタンティンV.サリホフ2014年

1
データの準備手順をどのように実行するかは明確ではありません。ただし、en.wikipedia.org / wiki / Anomaly_detectionで説明されているアルゴリズムを確認する必要があります。私があなただったら、私は最初にSVMメソッドをチェックしました
yatul

私はSVMについて読みました。既存のデータをクラスタリングして異常に大きなクラスタを見つけることではなく、既存のデータセットを手動でトレーニングした後に新しく作成されたデータを分類することについてもっと考えています。私は正しいですか?もし私がそうなら、この方法は私が望むものではありません。
コンスタンティンV.サリホフ2014年

回答:


6

これに使用できる1つのアルゴリズムは、k平均クラスタリングアルゴリズムです。

基本的に:

  1. セット、m_1、...、m_kからk個のデータポイントをランダムに選択します。
  2. 「収束するまで」:

    1. データポイントをk個のクラスターに割り当てます。クラスターiは、m_iが現在の平均に最も近いポイントのセットです。
    2. 各m_iをクラスターiに割り当てられたすべてのポイントの平均で置き換えます。

このアルゴリズムを数回繰り返し、各クラスターiの点と中心m_iの間の距離を最小にする結果を選択することをお勧めします。

もちろん、ここからkを知る必要があります。ただし、交差検証を使用してこのパラメーターを選択できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.