事前クラスタリングは、より優れた予測モデルの構築に役立ちますか?


9

チャーンモデリングのタスクについて、私は検討していました:

  1. データのk個のクラスターを計算する
  2. 各クラスターのkモデルを個別に作成します。

その根拠は、サブスクライバの母集団が均一であることを証明するものは何もないため、データ生成プロセスが異なる「グループ」では異なる可能性があると仮定するのが妥当です

私の質問は、それは適切な方法ですか?それは何かに違反していますか、それとも何らかの理由で悪いと考えられていますか?もしそうなら、なぜですか?

そうでない場合、その問題に関するいくつかのベストプラクティスを共有しますか?2つ目は、モデルツリーよりも事前クラスタリングを行う方が一般に良いか悪いかです(Witten、Frankで定義されているように、葉にモデルがある分類/回帰ツリー。 「通常の」クラスタリングよりも優れている場合はidk。

回答:


3

同様の問題を解決するクラスターワイズ回帰と呼ばれる方法があります(最初にデータをクラスター化し、次に予測モデルを構築します)。たとえばこれを見てください


1
私はそれをここで調べました:tandfonline.com/doi/abs/10.1080/00273170701836653で、次のように要約されています。クラスター内回帰モデル。したがって、クラスターごとの回帰でオーバーフィットする可能性が非常に高くなります。」本当に有望に思えません。
ジール

わかりました、しかし彼らはそれが常に失敗するとは言いません。私はその方法を使用したことがありません。それが教師付きアプローチと教師なしアプローチの組み合わせである可能性があることを知っているだけですが、この方法を使用する論文は少数です。
Miroslav Sabo、

さらに、私が見つけたほとんどのアプリケーションはマーケティングと金融に関するものであるため、おそらくこの種のデータに特に適しています。
Miroslav Sabo

1
チャーン、クロス、アップセルなど、マーケティングの分野では非常に直感的に見えます。
ジール

2

コメントするには長すぎる2つのポイント:

  • 純粋なクラスター(つまり、1つのクラスのケースのみを含む)自体は問題ありません。いわゆる1クラス分類子は、他のすべてのクラスから独立して各クラスをモデル化します。彼らはこれに完全に対処できます。

  • ただし、クラスが完全に分離された方法でデータがクラスター化される場合、つまりクラスターがかなり純粋である場合、これは非常に強力な構造が存在することを意味します。これは、クラスター分析で使用される同じ距離測定に基づく最近傍法などの特定のタイプの分類子がデータに適していることを意味します。

  • 他の可能性、つまりクラスターが純粋ではないが、クラスターと分類方法の組み合わせがうまく機能する状況は、ツリーに適しています。ツリーはクラスタリングの一部を実行します(純粋なノードは問題とは見なされません)。ここでは、XOR問題の2クラスタバージョンの人工的な例を示します。
    XORクラスター

  • 純粋なクラスターを持つリスクを冒すことなくクラスター情報を含める別の方法は、特徴生成ステップとしてクラスタリングを使用することです。新しい分析としてクラスター分析の結果をデータマトリックスに追加します。

  • あなたはそれが何らかの理由で悪いかどうかを尋ねます:1つの落とし穴は、このアプローチが多くの自由度を持つモデルにつながるということです。オーバーフィットしないように特に注意する必要があります。

  • モデルベースのツリーを見てください。たとえば、ここでのmbqの答えは、あなたが探しているものに非常に近い概念を実装していると思います。それらはフォレストとしても実装できます:RパッケージmobForestなど


1

私は最近同様の問題を扱っています。分類器を構築するための何百もの機能があります。さまざまなモデル(例:ランダムフォレスト、グラディエントブーストなど)を試した後でも、精度/再現率が低くなりました。だから私はいくつかのクラスタリングを行ってから、異なるグループで分類子を構築しようとしています。私の懸念は、Anony-Mousseが言うように、クラスタリングですべての情報を使用する場合、分類子からより多くの情報をどのように取得できるでしょうか?だからここに私がやるつもりです:

  1. いくつかの機能(以前の知識によれば、より少ない)を使用してクラスタリングを実行します。
  2. 他の機能(詳細)を使用して分類子をトレーニングします。

複雑さを軽減するのにも役立つと思います。


1

kk

NN/kYNμσ2=1π=21πμ1 μ2σ12σ22μβバツβ

あるいは、差別的な設定では、選択した分類アルゴリズム(NB、ANN、SVM、RFなど)をトレーニングするための機能として、クラスター割り当て(ハードまたはソフト)を組み込むこともできます。


0

まあ、あなたのクラスターが本当に良いなら、あなたの分類子はがらくたになります。彼らは彼らの訓練データに十分な転換がないので。

クラスターが完璧、つまり純粋であるとしましょう。もはやそこに分類器を適切に訓練することさえできません。分類子には正と負の例が必要です!

ランダムフォレストは、正反対のことを行うのに非常に成功しています。彼らはデータのランダムなサンプルを取り、その上で分類器を訓練し、訓練された分類器のすべてを使用します。

機能する可能性があるのは、クラスタリングを使用し、少なくとも十分に一致しない場合は、クラスターのすべてのペアで分類子をトレーニングすることです(クラスが2つのクラスターに分割されている場合でも、そこで分類子をトレーニングすることはできません!)


クラスタリングの目的は、「純粋な」クラスター、つまり、ターゲット変数の識別に優れているクラスターを見つけることではありません。クラスタリングの目的は、「その他」の領域で同種のグループを見つけることです。例を挙げましょう。解約には「品質のみ」の顧客と「コスト最適化」の顧客がいると思います。分類に関連する機能が両方のグループで同じであるとは思わないので、グループごとに個別のモデルを作成します。もちろん、明示的な「品質」と「コスト」のグループはありません。そのため、クラスタリングを行い、最初にデータからそのようなグループを導き出すという考えです。
ジール

データのあらゆる種類の余分な不均衡と相関関係が害を及ぼす可能性があります。参照してください、分類者は「品質のみ」と「コスト最適化」を見分けたい思うかもしれませ。グループが1つしかない場合は、この区別を利用できません。
QUITあり-Anony-Mousse

1
ただし、2レベルのアプローチを行う場合のみ、最初にクラスターで分類し、次にクラスター分類子を評価します。それ以外の場合、定数分類子は役に立ちません。次に、クラスタリングにすべての負担をかけます。
QUITあり-Anony-Mousse 2012年

1
まあ、それは私がOPを理解した方法です。
cbeleitesはSXに満足していない2012

1
もちろんこれを行うこともできますが、クラスターがそれほど良くない可能性があり、「重複する」分類子の適切なアンサンブルを使用する方がよい場合があります。RandomForestsと同じように。
QUITあり-Anony-Mousse 2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.