ロジスティック回帰のデータを分割する手段としてのクラスタリング


10

私は、ロジスティック回帰モデルのいくつかの機能に基づいて、学生の成功または失敗を予測しようとしています。モデルのパフォーマンスを向上させるために、明らかな違いに基づいて学生を複数のグループに分割し、各グループに個別のモデルを構築することをすでに考えました。しかし、これらのグループを試験で特定するのは難しいかもしれないと思うので、生徒の特徴をクラスタリングして、生徒を分割することを考えました。これは、そのようなモデルを構築する際の一般的な方法ですか?それを明白なグループに分けて(たとえば、最初の学期の生徒と帰国の生徒)、それらのグループでクラスタリングを実行するか、最初からクラスタリングすることを提案しますか?

明確にするために:

つまり、クラスタリングアルゴリズムを使用して、ロジスティック回帰のトレーニングセットをグループに分割することを検討しています。次に、これらのグループごとに個別のロジスティック回帰を行います。次に、ロジスティック回帰を使用して学生の結果を予測する場合、どのグループに最も適合するかに基づいて、使用するモデルを選択します。

おそらく、グループ識別子を含めることで同じことを行うことができます。たとえば、学生が戻ってきた場合は1、戻っていない場合は0などです。

これで、母集団ごとに個別のロジスティック回帰モデルを構築するのではなく、トレーニングデータセットをクラスター化し、それらのクラスターラベルをロジスティック回帰の機能として使用する方が有利かどうかについて考えました。

帰国生と新入生のグループ識別子を含めると便利な場合は、グループのリストを拡張すると便利でしょうか。クラスタリングは、これを行う自然な方法のようです。

それが明確であることを願っています...


「クラスタリング」とロジスティック回帰モデルがどのように相互に作用したり、相互に影響を及ぼしたりするのか、私にはわからないと思います。このコンテキストでの「クラスタリング」と、回帰の説明変数としてグループ識別子を含めることの違いを説明できますか?
whuber

回答:


4

クラスター間で従属変数に大きな違いがある場合、最初にクラスター化するアプローチが間違いなく役立つと思います。選択した学習アルゴリズムに関係なく。

learnignアルゴリズムをベース全体で実行すると、より低いレベルの集約で意味のある違いを隠すことができると私は考えています。

誰もがシンプソンのパラドックスについて聞いたことがあります。それは、より大きなサンプルノイズまたはより大きなグループのより弱い相関によってカバーされる異なるグループで異なる相関があるというより深い問題のハードケースです。


あなたは正しいかもしれませんが、私はあなたの主張に従いません。OPが検出されたクラスターで個別のLRを実行すること、共変量に加えてクラスターインデックスを追加すること、または共変量の代わりにクラスターインデックスを追加することを提唱していますか?観察研究で変数が省略されて共変量が交絡する可能性があることは確かに本当ですが、CAは実行される変数にない情報を生成できると言っていますか?シンプソンのパラドックスについては、興味があるならここでCV 議論されています。
gung-モニカの復活

私は、教師なしの分析が、IV(独立変数)の任意のセットを持つ同種のグループを引き出すことをお勧めします。これに続いて、LRを使用したモデリングの次の段階で、同じvarbsのセット、新しいセット、または組み合わせたセットのどちらを使用するかを決めることができます。目的は、クラスターごとに1 LRを構築および調整することです(クラスターのDV値または周波数が大幅に異なる場合)。
クランシー

私は実際に、生命保険商品のクロスセルのテイクアップモデルのコンテキストでこれを実行し、3番目のクラスターによって希釈されていた2つのクラスターの予測が改善されていることを発見しました。
クランシー

モデルにスプライン項が必要だったのではないかと思います。いくつかのデータのシミュレーション、基本的な適合、CA、およびクラスターインジケーター付きの最終的な(改善された)適合を含めることができますか?私はこれを見て、何が起こっているのかを理解するために少し遊んでみたいと思います。
gung-モニカの復活

こんにちは、ガンです。時間はわかりません。私は家族に多大な投資をして、モデリングスキルを向上させています。MARSモデリングでの作業を始めたばかりであり、これが上記のクラスター+ LRアンサンブルと同じ望ましい結果を満たすかどうかはわかりません。
クランシー

8

提案された一般的なアプローチ-潜在パーティションを使用してさまざまなデータポイントをさまざまな基本分類子に割り当てる-は、よく研究された分類アプローチです。

これらの方法が広く使用されていない理由は、それらが比較的複雑であり、ロジスティック回帰またはSVMよりも実行時間が長いためです。多くの場合、分類のパフォーマンスが向上する可能性があります。

ここにいくつかの参照があります:

  • Shahbaba、B.およびNeal、R.「ディリクレプロセス混合を使用した非線形モデル」

  • Zhu、J.とChen、N. and Xing、EP「分類とマルチタスク学習のための無限潜在SVM」

  • ラスムッセン、CEおよびガラマニ、Z「ガウスプロセスの専門家の無限の混合物」

  • Meeds、E.およびOsindero、S.「ガウスプロセスの専門家の代替無限混合」


1

クラスタリングについてはほとんど知らないことを最初から認めたいと思います。しかし、あなたが説明した手順の要点はわかりません。たとえば、その最初の学期と帰国生が異なる場合があると思うなら、それを索引付けする共変量を含めてみませんか?同様に、学生の別の機能が関連していると思われる場合は、それも含めることができます。あなたはと心配している場合は関係あなたの主な関心の予測因子と成功率とは異なる場合があります、あなたはまた、ロジスティック回帰が良く、このような含め経由でこれらの問題に対処するために装備されて戻ってその予測値と第一項対の間の相互作用などが含まれる可能性がモデルの項。

一方、これらの機能のみをクラスター化し、最初に(応答を確認せずに)クラスター化する限り、問題は発生しません。このアプローチは非効率的だと思います。各モデルはデータのサブセットにのみ当てはまるので、各モデルの出力は低くなりますが、パラメーターにバイアスをかけたり、テストを無効にしたりすることはないと思います。本当にやりたいならこれを試してみるといいでしょう。

更新:

私の推測では、1つのモデルをすべてのデータに適合させるのが最善(つまり、最も効率的)です。主要な関心を超える追加の共変量(リターンとそうでないなど)、および事前にクラスター分析を実行して発見したグループ化インジケーターを含めることができます。クラスター分析に入った共変量はまた、ロジスティック回帰モデルが利用できるようにしている場合は、私はちょうどLRモデルにおける共変量の全てを含む以上得られるものを見ることができるかどうかわからないんだけどなしクラスタインジケータ。私はクラスタ分析の専門家ではないので、これにはあまり馴染みのない利点があるかもしれませんが、それがどうなるかわかりません。CAは、共変量にまだ存在しない追加情報を生成しないため、LRモデルに何も追加しないように思えます。あなたはそれを試すことができます。たぶん私は間違っています。しかし、私の推測では、いくつかの追加の自由度を燃やすだけです。

別のアプローチは、それが基づいている共変量の代わりにクラスターインジケーターをLRモデル入力することです。これは有益だと思います。CAは完璧ではなく、他のどの分析よりも優れているため、元の共変量から派生クラスターインジケーターに移動すると、ある程度の情報損失が発生する可能性があります。(繰り返しますが、私はそれを知りませんが、それが真実であると強く疑っています。)繰り返しますが、両方を試して、学術的な演習として比較することができます。結果を真剣に受けたい場合は、

クラスター分析だけをこなしたくありません。一般にそれらの多くの利点があるかもしれません、そしてここでそれらのための良い使用があるかもしれません。しかし、私はあなたの状況を理解しているので、関連があると思われる共変量を使用してLRモデルを構築するだけでよいと思います。


1

ロジスティック回帰に縛られていない場合は、ランダムフォレスト分類器を使用することをお勧めします。これは、一種の組み込みクラスタリングを備えているためです。アイデアは、近接行列を使用してクラスター化することです。近接行列は、観測が同じターミナルノードにあるout of bagツリーの割合に対するN_Obs x N_Obs行列です。その後、これを機能レベルマトリックスごとに機能レベルに集約できます。ここで、要素は近接マトリックスの割合の平均です。次に、しきい値を超えたときにすべてのレベルをクラスター化し、これが予測を改善するかどうかを確認します。最適なクラスタリングを見つけるには、段階的な反復アプローチをとるのが最善ですが、他の方法でしきい値を選択することもできます。このクラスタリングが完了したら、機能をクラスターラベルで置き換えるか、クラスターラベルを新しい機能として追加できます。この時点で、本当に望めばロジスティック回帰に戻すことができると思います。


0

マルチセグメントモデルを作成するときの最良のアプローチは、基になる分布の実際の違いを伝えるセグメントを作成することだと思います。予測子の分布はこれらの2つの母集団で非常に異なる可能性が高いため、第1学年の生徒と帰国の生徒が良い例です。さらに重要なことに、これらの違いには直感的な説明があります。


私は直感的な説明の価値を得ます-それはあなたのモデルを解釈するのに役立ちます。しかし、人々が類似性に基づいてグループにクラスター化した場合、利用可能な機能の点では、同じ解釈可能性ではなくても、同様の利点が得られると考える理由はありませんか?クラスタリングの使用の背後にある考え方は、私たちが日常生活で使用するカテゴリにきちんと対応しないグループを特定することになると、機械は人間より優れているということだと思います...
dave

さらに、同様の学生のセットで回帰モデルをトレーニングすると、そのモデルは、幅広い学生のセットを使用してトレーニングされたモデルよりも、それらの学生の成功の予測においてより正確になります。
daveは
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.