平均二乗誤差を分類に使用できますか?


13

平均二乗誤差の式とその計算方法を知っています。回帰について話すとき、平均二乗誤差を計算できます。ただし、分類問題のMSEとその計算方法について説明できますか?

回答:


12

多くの分類子は連続スコアを予測できます。多くの場合、連続スコアは、分類の最後のステップとして(通常はしきい値によって)クラスラベルにのみ変換される中間結果です。その他の場合、例えば、クラスメンバーシップの事後確率を計算できます(例えば、判別分析、ロジスティック回帰)。クラスラベルではなく、これらの連続スコアを使用してMSEを計算できます。その利点は、二分法による情報の損失を回避できることです。
連続スコアが確率の場合、MSEメトリックはブライアースコアと呼ばれます。

ただし、偽装ではなく回帰の問題である分類の問題もあります。私の分野では、たとえば、ある物質の濃度が法的制限を超えているかどうかに応じてケースを分類している可能性があります(これは、バイナリ/識別の2クラスの問題です)。ここでは、タスクの根本的な回帰の性質により、MSEは自然な選択です。

このペーパーでは、C。Beleites、R。Salzer、V。Sergo: 部分クラスメンバーシップを使用したソフト分類モデルの検証:星細胞腫組織の等級付けに適用される感度と共同の拡張概念の検証を、より一般的なフレームワークの一部として説明します 。 Chemom。Intell。ラボ Syst。、122(2013)、12-22。

計算方法:Rで作業する場合、1つの実装はパッケージ "softclassval"、http:/softclassval.r-forge.r-project.orgにあります。


@ seanv507:ありがとうございます!
cbeleitesはSX

1

うまくいっていないのですが...成功した分類はバイナリ変数(正しいかどうかにかかわらず)であるため、何を平方するかを確認することは困難です。

一般に、分類は、トレーニングセットから推定された分類が、以前に確保されたテストセットに適用される場合に、正解率などの指標で測定されます。

平均二乗誤差は、連続変数の予測または予測値に対して確かに計算できます(そして計算されます)が、分類についてはそうではないと思います。


0

π^

L=iπ^iyi(1π^i)1yi

この可能性は、ベルヌーイ分布があると想定されるバイナリ応答に対するものです。

L


0

技術的には可能ですが、MSE関数はバイナリ分類では凸ではありません。バイナリ分類モデルは、MSEコスト関数で訓練されている場合このように、コスト関数を最小化することは保証されません。また、MSEをコスト関数として使用する場合、バイナリ分類の場合とは異なるガウス分布が想定されます。


1
MSEがガウス分布を仮定するのはなぜですか?(たとえば、最小二乗回帰は損失としてMSEを使用しますが、正規分布された残差を持つ回帰問題に最適であることを示すことができます)
cbeleitesは、SX

バイナリ分類には最適ではありませんが、回帰には最適です。質問はバイナリでした。
モスタファNakhaei

質問は、バイナリ分類については言っていません。それは差別的な分類さえも言っていない。また、MSEを使用できるかどうかについてのみ、最適性(2つのクラスでバイナリまたは識別と言うよりも、状況についてさらに具体的に説明する必要がある)については質問しません。また、ブライアーのスコアは予測のための厳密に適切なスコアリングルールであるため、非最適性のより詳細な説明は確かに役立ちます(この非最適性がいつ適用されるかについて非常にわかりやすくなります)。
cbeleitesはSX
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.