回答:
変数が連続または序数である場合に分類手法を推奨する例は考えられません。連続モデルを効率的に近似した後、そのモデルを使用して、が関心のあるレベルを超える確率を推定できます。モデルがガウス型の場合、この確率は予測平均と残差標準偏差の関数です。
Vladimir Vapnik(サポートベクターマシンの共同発明者であり、主要な計算学習理論家)は、より一般的な問題を解決してソリューションによって提供される情報の一部を破棄するのではなく、常に直接問題を解決しようとすることを提唱しています。私はこれに概ね同意しているので、現在提起されている問題の分類アプローチを提案します。この理由は、プロジェクトを収益性のあるものと非収益性のあるものに分類することにのみ関心がある場合、収益性がほぼゼロの領域にのみ関心があるためです。分類モデルを作成する場合は、モデリングリソースに集中します。回帰アプローチを採用する場合、ボーダーラインプロジェクトのパフォーマンスの向上を犠牲にして、非常に収益性または不利益になるプロジェクトのパフォーマンスを少し改善するためにモデリングリソースを浪費している可能性があります。
私が「現在提起されているように」と言った理由は、実際には単純でハードなバイナリ分類に関連する問題がほとんどないためです(光学式文字認識はおそらく1つでしょう)。一般に、分類の種類が異なればコストも異なります。または、操作クラスの頻度が不明であるか、変数などである可能性があります。そのような場合は、ロジスティック回帰などの確率的分類器を使用することをお勧めしますではなく、SVM。金融アプリケーションの場合、プロジェクトが利益を生むかどうかの確率と、プロジェクトがどれだけ利益を生むか、あるいはそうでなければそうなる可能性が高いかを知っていれば、もっとうまくいくと思います。利益が出る可能性は低いが、成功すれば大いに利益が出るプロジェクトに資金を提供することをいとわないかもしれませんが、成功がほぼ保証されているが、利益率が非常に小さいプロジェクトではありません普通預金口座にお金を入れるだけのほうがいいです。
したがって、フランクとOmri374はどちらも正しいです!(+1; o)
これが発生する理由は、回帰アプローチが各データポイントの二乗誤差の合計を最小化するために等しく努力するためです。この場合、他の2つのポイントでより低いエラーを達成するために、プロジェクト2を決定境界の正しくない側に配置できるようにすることで、より低いSSEが得られます。
したがって、フランクは、実際には回帰アプローチが優れたアプローチである可能性が高いと言っていますが、実際に分類が最終的な目的である場合、パフォーマンスが低下し、分類アプローチのパフォーマンスが向上する場合があります。
コメントを読んだ後、私は次の違いが議論に欠けているものだと思います:
問題をモデル化する方法
これは、使用するテクニックとは関係ありません。入力と出力が何であるか、そして結果をどのように評価するかという問題です。
私たちのプロジェクトが有益であるかどうかだけに真剣に関心があり、それらがそうである量が絶対に無関係である場合、これを分類問題としてモデル化する必要があります。つまり、正しい分類(精度)またはAUCの予想される率を最終的に最適化していることになります。この最適化の意味は、使用する手法によって異なります。
モデルの選択と検索アルゴリズムのすべての質問には、ヒューリスティックにアプローチできます(他の回答やコメントで出された引数を使用)。しかし、プリンの究極の証拠は食べていることです。どのモデルを使用している場合でも、相互検証されたテストによって精度が評価されるため、最適化するのは精度です。
問題を解決する方法
分類パラダイムに適合する任意の方法を使用できます。連続するy変数があるので、その上で回帰を行い、バイナリ分類に変換できます。これはおそらくうまくいくでしょう。ただし、最適化された回帰モデル(二乗誤差の合計または最大尤度など)が最適な分類モデル(精度またはAUC)を提供する保証はありません。
分類モデルは通常、バイアスではなく、符号(クラスの点でのエラー)を最小化しようとします。たとえば、多くの外れ値がある場合、回帰モデルではなく分類モデルを使用したいと思います。
私は問題を損失を最小限に抑えることとして組み立てます。問題はあなたの本当の損失関数は何ですか?プロジェクトが$ 1を失ったときの利益の予測は、プロジェクトが$ 1000を失ったときの利益の予測と同じくらいですか?その場合、損失関数は真にバイナリであり、すべてを分類問題としてキャストする方が適切です。回帰関数は候補分類子の1つである可能性がありますが、連続関数ではなく離散損失関数を使用して最適化する必要があります。損失の定義がもっと複雑な場合は、それを形式化して、デリバティブを取ると何が得られるかを確認する必要があります。
興味深いことに、離散損失関数は最適化の勾配が不十分であるため、多くの機械学習方法は、連続損失関数で近似することにより、実際に離散損失関数を最適化します。したがって、それはあなたの損失関数なので、分類問題としてそれをキャストすることになるかもしれませんが、その損失関数を元の連続関数で近似します。