ベイズエラー率は、いくつかのデータが与えられた場合に、分類問題の最低のエラー率を決定する理論上の限界です。回帰アルゴリズムの場合に同等の概念が存在するかどうか疑問に思っていました。私の目的は、回帰アルゴリズムのエラーがその理論上の限界からどれだけ離れているかを判断することです。これは、私が可能な最良のソリューションからどれだけ離れているかを評価する方法です。特定のデータセットの最小の回帰誤差の範囲を取得する方法はありますか?
ベイズエラー率は、いくつかのデータが与えられた場合に、分類問題の最低のエラー率を決定する理論上の限界です。回帰アルゴリズムの場合に同等の概念が存在するかどうか疑問に思っていました。私の目的は、回帰アルゴリズムのエラーがその理論上の限界からどれだけ離れているかを判断することです。これは、私が可能な最良のソリューションからどれだけ離れているかを評価する方法です。特定のデータセットの最小の回帰誤差の範囲を取得する方法はありますか?
回答:
この質問は1年以上前に尋ねられたことに気づきましたが、1つの可能性は、バイアス分散分解を使用してエラー率の下限を計算することだと思います。
基本的に、エラー率は、バイアス、分散、および既約エラーの3つの項の合計として記述されます。これらの用語について学ぶための良い情報源の1つは、統計学習の紹介です。
真の関数()は、機械学習モデルが適合できる関数のファミリ内にあり、トレーニングデータの量が無限大になるため、限界を想定します。次に、機械学習モデルに有限数のパラメーターがある場合、バイアスと分散の両方がゼロになります。したがって、実際のエラーは単純に、既約エラーと等しくなります。
例として、真のデータがガウスノイズで線形であるとします:。最適な推定量の1つは明らかに線形回帰であり、さらにトレーニング例を追加すると、推定された係数および近づくとそれぞれ、。したがって、達成できると期待できる最良のエラー(二乗損失を想定)は、データ生成自体に関連する固有のエラー/還元不可能なノイズである等しくなります。
実際には、データを生成するための真のプロセスの知識が必要なため、既約エラーの計算は困難です(不可能?)。ただし、この批評はベイズ誤差にも当てはまります。これは、真のクラス確率の知識が必要だからです。