理論上の限界-回帰誤差


7

ベイズエラー率は、いくつかのデータが与えられた場合に、分類問題の最低のエラー率を決定する理論上の限界です。回帰アルゴリズムの場合に同等の概念が存在するかどうか疑問に思っていました。私の目的は、回帰アルゴリズムのエラーがその理論上の限界からどれだけ離れているかを判断することです。これは、私が可能な最良のソリューションからどれだけ離れているかを評価する方法です。特定のデータセットの最小の回帰誤差の範囲を取得する方法はありますか?


1
これは素晴らしい質問です。私の最初の考えはR二乗でした。これは、特定の機能セットの回帰によってどの程度の変動が説明されるかを示しています。ベイズのエラー率は、特定の分類問題関連する特徴の選択で達成可能なエラーの統計的な下限を与えるためです。ベイズエラー率の計算(推定)は困難ですが、指摘するように、分類器にとって非常に優れた汎用性があります。だから私はベイズ回帰に​​ついて考え始めました、そしてあなたはほとんどベイズ損失を探しているようです。
AN6U5 2015

1
お返事ありがとうございます。R 2乗の計算には予測が必要なので、R 2乗の理論上の限界を推定できるかどうか疑問に思っています。分類器のアンサンブルによるベイズ誤り率の推定に関する論文を読みました。おそらく似たようなものがR-squaredに適用できます(ここではランダムに考えました)。ベイジアン回帰についてはよく知りません。確認します。
Pablo Suau

回答:


2

この質問は1年以上前に尋ねられたことに気づきましたが、1つの可能性は、バイアス分散分解を使用してエラー率の下限を計算することだと思います。

基本的に、エラー率は、バイアス、分散、および既約エラーの3つの項の合計として記述されます。これらの用語について学ぶための良い情報源の1つは、統計学習の紹介です。

真の関数()は、機械学習モデルが適合できる関数のファミリ内にあり、トレーニングデータの量が無限大になるため、限界を想定します。次に、機械学習モデルに有限数のパラメーターがある場合、バイアスと分散の両方がゼロになります。したがって、実際のエラーは単純に、既約エラーと等しくなります。f(x)

例として、真のデータがガウスノイズで線形であるとします:。最適な推定量の1つは明らかに線形回帰であり、さらにトレーニング例を追加すると、推定された係数および近づくとそれぞれ、。したがって、達成できると期待できる最良のエラー(二乗損失を想定)は、データ生成自体に関連する固有のエラー/還元不可能なノイズである等しくなります。yN(a+bx,σ2)y^=a^+b^xa^b^abσ2

実際には、データを生成するための真のプロセスの知識が必要なため、既約エラーの計算は困難です(不可能?)。ただし、この批評はベイズ誤差にも当てはまります。これは、真のクラス確率の知識が必要だからです。


答えてくれてありがとう。それは非常に理にかなっていると思います。
Pablo Suau 2017

0

はい、それは真または実際の回帰直線からの応答変数の距離の2乗の合計になります(知っている場合)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.