分類と回帰を組み合わせたアルゴリズムはありますか？

分類と回帰を同時に行うことができるアルゴリズムがあるかどうか疑問に思っています。たとえば、アルゴリズムに分類子を学習させたいと同時に、各ラベル内で連続ターゲットも学習させます。したがって、トレーニングの例ごとに、カテゴリラベルと連続値があります。

最初に分類器をトレーニングし、次に各ラベル内のリグレッサーをトレーニングできますが、両方を実行できるアルゴリズムがあれば素晴らしいと思います。

— シュドン
ソース

不偏再帰的パーティション分割を

— ご覧ください

@Tim、[finite-fixture-model]（ここで使用したタグ）には抜粋がありません。提供しますか？

— アメーバは、モニカの復活を

Shudong、あなたは「分類」を意味しましたか、それとも「クラスタリング」を意味しましたか？あなたは分類について尋ねましたが、クラスタリングについてのティムの答えを受け入れました。

— アメーバは、モニカの復活を

@amoebaが完了しました。完璧ではありません。誰かがいつか抜粋を改善するでしょう。

— ティム

@amoeba分類を意味します。ティムスの答えは近いものです。他に答えはありません。たぶん少し待つべきですか？

— シュドン

説明している問題は、潜在クラス回帰、クラスターワイズ回帰、またはすべての有限混合モデルファミリーまたは潜在クラスモデルのすべてのメンバーである一般化線形モデルの拡張混合で解決できます。

分類（教師あり学習）と回帰それ自体の組み合わせではなく、クラスタリング（教師なし学習）と回帰の組み合わせです。基本的なアプローチを拡張して、付随する変数を使用してクラスメンバーシップを予測することができます。これにより、探しているものにさらに近づくことができます。実際、分類に潜在クラスモデルを使用することは、そのような目的に推奨するVermunt and Magidson（2003）によって説明されました。

潜在クラス回帰

このアプローチは、基本的には次の形式の有限混合モデル（または潜在クラス分析）です。

f (y ∣ x, ψ) = \sum_{k = 1}^{K} π_{k} f_{k} (y ∣ x, ϑ_{k})

$f(y \mid x, \psi) = \sum^K_{k=1} \pi_k \, f_k(y \mid x, \vartheta_k)$

ここで、はすべてのパラメーターのベクトルであり、はによってパラメーター化された混合成分であり、各成分は潜在的な比率ます。そのため、データの分布は成分の混合であり、それぞれが確率現れる回帰モデル記述できるというです。有限混合モデルは、コンポーネントの選択において非常に柔軟であり、モデルの異なるクラスの他の形式および混合（因子分析器の混合など）に拡張できます。 $\psi = (\boldsymbol{\pi}, \boldsymbol{\vartheta})$ $f_k$ $\vartheta_k$ $\pi_k$ $K$ $f_k$ $\pi_k$ $f_k$

付随変数に基づくクラスメンバーシップの確率の予測

単純な潜在クラス回帰モデルを拡張して、クラスメンバーシップを予測する付随変数を含めることができます（Dayton and Macready、1998; see also：Linzer and Lewis、2011; Grun and Leisch、2008; McCutcheon、1987; Hagenaars and McCutcheon、2009）、そのような場合、モデルは

f (y ∣ x, w, ψ) = \sum_{k = 1}^{K} π_{k} (w, α) f_{k} (y ∣ x, ϑ_{k})

$f(y \mid x, w, \psi) = \sum^K_{k=1} \pi_k(w, \alpha) \, f_k(y \mid x, \vartheta_k)$

ここでも、はすべてのパラメーターのベクトルですが、付随変数および付随変数に基づいて潜在比率を予測するために使用される関数（たとえば、ロジスティック）も含まれます。そのため、最初にクラスメンバーシップの確率を予測し、単一モデル内でクラスターごとの回帰を推定できます。 $\psi$ $w$ $\pi_k(w, \alpha)$

長所と短所

それが素晴らしいのは、それがモデルベースのクラスタリング手法であり、モデルをデータに適合させることを意味し、そのようなモデルはモデル比較のさまざまな方法（尤度比テスト、BIC、AICなど）を使用して比較できることです）、したがって、最終モデルの選択は、一般的なクラスター分析のように主観的ではありません。問題をクラスタリングの2つの独立した問題に分割してから回帰を適用すると、結果に偏りが生じ、単一モデル内のすべてを推定することで、データをより効率的に使用できます。

欠点は、モデルについていくつかの仮定を行い、それについてある程度考える必要があるということです。そのため、単純にデータを取得し、気にせずに結果を返すブラックボックスメソッドではありません。ノイズの多いデータと複雑なモデルを使用すると、モデルの識別可能性の問題も発生する可能性があります。また、そのようなモデルはそれほど一般的ではないため、広く実装されていません（素晴らしいRパッケージflexmixを確認できpoLCA、SASとMplusにもある程度実装されている限り、ソフトウェアに依存しています）。

例

以下に、flexmixライブラリ（Leisch、2004; Grun and Leisch、2008）からそのようなモデルの例を見ることができます。

library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
## 
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
## 
##        prior size post>0 ratio
## Comp.1 0.506  100    141 0.709
## Comp.2 0.494  100    145 0.690
## 
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09   BIC: 1332.775 
parameters(m1, component = 1)
##                      Comp.1
## coef.(Intercept) 14.7171662
## coef.x            9.8458171
## coef.I(x^2)      -0.9682602
## sigma             3.4808332
parameters(m1, component = 2)
##                       Comp.2
## coef.(Intercept) -0.20910955
## coef.x            4.81646040
## coef.I(x^2)       0.03629501
## sigma             3.47505076

次のプロットで視覚化されます（点の形状は真のクラスであり、色は分類です）。

参照と追加リソース

詳細については、次の書籍と論文を確認できます。

Wedel、M.およびDeSarbo、WS（1995）。一般化線形モデルのための混合尤度アプローチ。 Journal of Classification、 12、21–55。

Wedel、M. and Kamakura、WA（2001）。市場セグメンテーション-概念的および方法論的基盤。Kluwer Academic Publishers。

ライシュ、F。（2004）。Flexmix：R. Journal of Statistical Softwareの有限混合モデルと潜在ガラス回帰の一般的なフレームワーク、11（8）、1-18。

Grun、B。およびLeisch、F。（2008）。FlexMixバージョン2：付随する変数と可変および定数パラメーターを含む有限混合。 Journal of Statistical Software、28（1）、1-35。

McLachlan、G. and Peel、D.（2000）。有限混合モデル。ジョン・ワイリー＆サンズ。

Dayton、CMおよびMacready、GB（1988）。付随変数潜在クラスモデル。Journal of the American Statistical Association、83（401）、173-178。

リンザー、DAおよびルイス、JB（2011年）。poLCA：多変数の潜在クラス分析のためのRパッケージ。 Journal of Statistics Software、42（10）、1-29。

アラバマ州マカッチョン（1987）。潜在クラス分析。セージ。

Hagenaars JAおよびアラバマ州McCutcheon（2009年）。潜在クラス分析の適用。ケンブリッジ大学出版局。

Vermunt、JK、およびMagidson、J.（2003）。分類のための潜在クラスモデル。 計算統計とデータ分析、41（3）、531-537。

Grün、B.およびLeisch、F.（2007）。回帰モデルの有限混合の適用。flexmixパッケージビネット。

Grün、B.＆＆Leisch、F.（2007）。R. Computational Statistics＆Data Analysis、51（11）、5247-5252 の一般化線形回帰の有限混合のフィッティング。

— ティム
ソース