elasticsearchクラスターに多数の顧客プロファイルが保存されています。これらのプロファイルは、電子メールサブスクリプションのターゲットグループの作成に使用されます。
ターゲットグループは現在、elasticsearchファセット検索機能を使用して手動で形成されています(23歳のすべての男性顧客に1台の車と3人の子供を連れて行くなど)。
データサイエンス、機械学習、クラスタリングなどを使用して、興味深いグループを自動的に検索するにはどうすればよいですか?
rプログラミング言語はこのタスクに適したツールのようですが、そのようなグループ検索の方法論を形成することはできません。1つの解決策は、何とかして最大の顧客クラスターを見つけてターゲットグループとして使用することです。そのため、問題は次のとおりです。
同様の顧客の最大のクラスターを自動的に選択するにはどうすればよいですか(現時点ではわからないパラメーターで同様)。
例:私のプログラムはelasticsearchに接続し、顧客データをCSVにオフロードし、R言語スクリプトを使用すると、大部分の顧客が子供を持たない男性であり、別の大部分の顧客が車を持ち、目の色が茶色であることがわかります。
1
「興味深いグループ」とはどういう意味ですか?事前に定義された重要な機能のリストはありますか?
—
ヤトゥル2014年
興味深いグループとは、他の可能なクラスターよりもはるかに大きい、あるしきい値よりも大きいサイズのグループです。
—
コンスタンティンV.サリホフ2014年
データの準備手順をどのように実行するかは明確ではありません。ただし、en.wikipedia.org / wiki / Anomaly_detectionで説明されているアルゴリズムを確認する必要があります。私があなただったら、私は最初にSVMメソッドをチェックしました
—
yatul
私はSVMについて読みました。既存のデータをクラスタリングして異常に大きなクラスタを見つけることではなく、既存のデータセットを手動でトレーニングした後に新しく作成されたデータを分類することについてもっと考えています。私は正しいですか?もし私がそうなら、この方法は私が望むものではありません。
—
コンスタンティンV.サリホフ2014年