連続応答変数の符号を予測するための分類と回帰


8

たとえば、プロジェクトが利益を生むかどうかを予測したいとします。私のサンプルデータでは、応答変数は実際には連続変数、つまりプロジェクトの$利益/損失です。

私の最終的な目標は単なるバイナリ分類(収益性のあるプロジェクトまたは収益性のないプロジェクト)なので、分類手法を使用する必要がありますか?または、連続応答変数が提供する追加情報を捨てないように、回帰を使用する必要がありますか?

回答:


10

変数が連続または序数である場合に分類手法を推奨する例は考えられません。連続モデルを効率的に近似した後、そのモデルを使用して、が関心のあるレベルを超える確率を推定できます。モデルがガウス型の場合、この確率は予測平均と残差標準偏差の関数です。Y


4
(下記のように)1つの例は、不正確な予測のコストが収益性のすべてのレベルで同じである場合です。つまり。連続変数があるが、本当に離散値のみに関心がある場合。分類のために最適化されたスプラインが0の周りにすべてのノットを置くことができ、一方、連続変数に回帰ノットnのスプラインは、正確モードに極端な値であり、データの形状を多くの結び目を置いてもよい
ピーター

9

Vladimir Vapnik(サポートベクターマシンの共同発明者であり、主要な計算学習理論家)は、より一般的な問題を解決してソリューションによって提供される情報の一部を破棄するのではなく、常に直接問題を解決しようとすることを提唱しています。私はこれに概ね同意しているので、現在提起されている問題の分類アプローチを提案します。この理由は、プロジェクトを収益性のあるものと非収益性のあるものに分類することにのみ関心がある場合、収益性がほぼゼロの領域にのみ関心があるためです。分類モデルを作成する場合は、モデリングリソースに集中します。回帰アプローチを採用する場合、ボーダーラインプロジェクトのパフォーマンスの向上を犠牲にして、非常に収益性または不利益になるプロジェクトのパフォーマンスを少し改善するためにモデリングリソースを浪費している可能性があります。

私が「現在提起されているように」と言った理由は、実際には単純でハードなバイナリ分類に関連する問題がほとんどないためです(光学式文字認識はおそらく1つでしょう)。一般に、分類の種類が異なればコストも異なります。または、操作クラスの頻度が不明であるか、変数などである可能性があります。そのような場合は、ロジスティック回帰などの確率的分類器を使用することをお勧めしますではなく、SVM。金融アプリケーションの場合、プロジェクトが利益を生むかどうかの確率と、プロジェクトがどれだけ利益を生むか、あるいはそうでなければそうなる可能性が高いかを知っていれば、もっとうまくいくと思います。利益が出る可能性は低いが、成功すれば大いに利益が出るプロジェクトに資金を提供することをいとわないかもしれませんが、成功がほぼ保証されているが、利益率が非常に小さいプロジェクトではありません普通預金口座にお金を入れるだけのほうがいいです。

したがって、フランクとOmri374はどちらも正しいです!(+1; o)

y=($1000,+$1,+$1000)x=(1,2,10)β0=800.8288β1=184.8836y^1$616y^2$431y^3$1048t=2(y>=0)1β0=0.2603β1=0.1370t^1=0.1233t^2=0.0137t^3=1.1096

これが発生する理由は、回帰アプローチが各データポイントの二乗誤差の合計を最小化するために等しく努力するためです。この場合、他の2つのポイントでより低いエラーを達成するために、プロジェクト2を決定境界の正しくない側に配置できるようにすることで、より低いSSEが得られます。

したがって、フランクは、実際には回帰アプローチが優れたアプローチである可能性が高いと言っていますが、実際に分類が最終的な目的である場合、パフォーマンスが低下し、分類アプローチのパフォーマンスが向上する場合があります。


[Y>0|X]

連続モデルが分類モデルよりも多くのリソースを必要とするかどうかは、モデルのタイプによって異なります(たとえば、ニューラルネットワークモデルは、非表示の単位を使用して境界線の近くのフィーチャをモデル化したり、境界線から離れたフィットを改善するために使用したりできます) 。同じことが線形モデルの重みのより少ない範囲にも当てはまり、近似値は境界線の近くにない高レバレッジポイントによって支配される可能性があり、単純な分類が実際に重要である場合、これは悪いことかもしれません。
Dikran Marsupial 2013

収益性に関する2番目のポイントは、基本的に2番目の段落で説明している理由であるようです(実際の問​​題はおそらく単純なハード分類ではないでしょう)。これが、あなたとomri374の両方が正しいと述べた理由です。
Dikran Marsupial 2013

Y

分類システムは、長い間、離散ラベルを使用して決定境界を特定するために使用されてきました。あなたは要点を逃しています、私は実際にはほとんどあなたが書いたものと同意しています、モデルが決定の境界に近くない高レバレッジポイントによってバイアスされる可能性があるという警告で、分類が実際に目的である場合、パフォーマンスを低下させる可能性があります(これは実際には比較的まれです)。私は長年にわたって自分の応用研究でこの現象を見てきましたが、私自身も分類モデルを解決するために回帰モデルをよく使用しています。ヴァプニック教授にお尋ねください。
Dikran Marsupial

3

コメントを読んだ後、私は次の違いが議論に欠けているものだと思います:

問題をモデル化する方法

これは、使用するテクニックとは関係ありません。入力と出力が何であるか、そして結果をどのように評価するかという問題です。

私たちのプロジェクトが有益であるかどうかだけに真剣に関心があり、それらがそうである量が絶対に無関係である場合、これを分類問題としてモデル化する必要があります。つまり、正しい分類(精度)またはAUCの予想される率を最終的に最適化していることになります。この最適化の意味は、使用する手法によって異なります。

モデルの選択と検索アルゴリズムのすべての質問には、ヒューリスティックにアプローチできます(他の回答やコメントで出された引数を使用)。しかし、プリンの究極の証拠は食べていることです。どのモデルを使用している場合でも、相互検証されたテストによって精度が評価されるため、最適化するのは精度です。

問題を解決する方法

分類パラダイムに適合する任意の方法を使用できます。連続するy変数があるので、その上で回帰を行い、バイナリ分類に変換できます。これはおそらくうまくいくでしょう。ただし、最適化された回帰モデル(二乗誤差の合計または最大尤度など)が最適な分類モデル(精度またはAUC)を提供する保証はありません。


一般的な格言として+1、私は最初のタスクは解決される問題の明確な考えを持つことを提案し、2番目は実際にある質問に最も直接的な答えを与える方法で問題にアプローチすることです尋ねられている。これはVapnikの格言を少し一般化したものですが、ごくわずかです!
Dikran Marsupial

YY>0

必ずしも連続的なy値を破棄または無視する必要があるとは言っていません。ただし、分類子での使用と回帰精度の最適化には違いがあります(問題は分類としてモデル化しますが、回帰で解決します)。最善の解決策は回帰法である可能性がありますが、分類器として評価することでこれを証明する必要があります。また、連続値を破棄して離散化された値のみを使用すると、パフォーマンスが向上する場合があります。
ピーター

分類子として評価すると、ユーティリティ関数が不連続になり、私には現実的ではないように見えます。また、バイナリの決定が強制される、つまり「決定なし、より多くのデータを取得する」というカテゴリがないことも意味します。非常に重要な変数をモデルに追加した後、分類の精度が低下する例を作成しました。問題は変数にありません。精度の目安です。
フランクハレル

Y>0

1

分類モデルは通常、バイアスではなく、符号(クラスの点でのエラー)を最小化しようとします。たとえば、多くの外れ値がある場合、回帰モデルではなく分類モデルを使用したいと思います。


それは従わず、ひどく非効率的です。比例オッズモデルなどのセミパラメトリックモデルを含む堅牢な連続モデルを使用できます。
フランクハレル2013

0

私は問題を損失を最小限に抑えることとして組み立てます。問題はあなたの本当の損失関数は何ですか?プロジェクトが$ 1を失ったときの利益の予測は、プロジェクトが$ 1000を失ったときの利益の予測と同じくらいですか?その場合、損失関数は真にバイナリであり、すべてを分類問題としてキャストする方が適切です。回帰関数は候補分類子の1つである可能性がありますが、連続関数ではなく離散損失関数を使用して最適化する必要があります。損失の定義がもっと複​​雑な場合は、それを形式化して、デリバティブを取ると何が得られるかを確認する必要があります。

興味深いことに、離散損失関数は最適化の勾配が不十分であるため、多くの機械学習方法は、連続損失関数で近似することにより、実際に離散損失関数を最適化します。したがって、それはあなたの損失関数なので、分類問題としてそれをキャストすることになるかもしれませんが、その損失関数を元の連続関数で近似します。


[Y>0|X]

それは面白い。しかし、MLは決して最終的な目標ではありません。それは、精度またはAUCのどちらかです。尤度(またはSSE)を最適化している場合、重要ではないデータアーティファクトのモデリングに「モデルの複雑さを費やす」ことになるかもしれません。同等のモデルは、実際にモデリングの精度を下げて、分類の精度の向上に焦点を当てることができます。
ピーター

X

AUCについてのあなたの不安に同意します。正確には、正しく分類された比率を意味します。ポスターが本当にバイナリ変数のみに関心があるとは考えにくいと私は同意します。実際に得られた利益の額が何らかの役割を果たすと思います。しかし、個別の分類が本当に唯一の懸念事項である場合は、分類指標以外に最適化するものは何もありません。そして、あなたのクラスが収益性のあるクラスに強く偏っている場合、データを無視し、常に収益性のあるものとして分類することは確かに打ち勝つための難しいベースラインになります。
Peter

分類された比率は、AUCよりもさらに正しく実行されます。1970年代のドイツの意思決定文献では、分類の正確さは不適切なスコアリングルールであることが示されていました。個別の分類が問題である場合、それは最後の1秒間に取得できます。ベイズの最適な決定では、利用可能なすべての情報を完全に条件付けします。
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.