5
ロジスティック回帰のデータを分割する手段としてのクラスタリング
私は、ロジスティック回帰モデルのいくつかの機能に基づいて、学生の成功または失敗を予測しようとしています。モデルのパフォーマンスを向上させるために、明らかな違いに基づいて学生を複数のグループに分割し、各グループに個別のモデルを構築することをすでに考えました。しかし、これらのグループを試験で特定するのは難しいかもしれないと思うので、生徒の特徴をクラスタリングして、生徒を分割することを考えました。これは、そのようなモデルを構築する際の一般的な方法ですか?それを明白なグループに分けて(たとえば、最初の学期の生徒と帰国の生徒)、それらのグループでクラスタリングを実行するか、最初からクラスタリングすることを提案しますか? 明確にするために: つまり、クラスタリングアルゴリズムを使用して、ロジスティック回帰のトレーニングセットをグループに分割することを検討しています。次に、これらのグループごとに個別のロジスティック回帰を行います。次に、ロジスティック回帰を使用して学生の結果を予測する場合、どのグループに最も適合するかに基づいて、使用するモデルを選択します。 おそらく、グループ識別子を含めることで同じことを行うことができます。たとえば、学生が戻ってきた場合は1、戻っていない場合は0などです。 これで、母集団ごとに個別のロジスティック回帰モデルを構築するのではなく、トレーニングデータセットをクラスター化し、それらのクラスターラベルをロジスティック回帰の機能として使用する方が有利かどうかについて考えました。 帰国生と新入生のグループ識別子を含めると便利な場合は、グループのリストを拡張すると便利でしょうか。クラスタリングは、これを行う自然な方法のようです。 それが明確であることを願っています...