バイアス分散のトレードオフの概念を理解しています。私の理解に基づくバイアスは、単純な分類子(例:線形)を使用して複雑な非線形決定境界をキャプチャするため、エラーを表します。そのため、OLS推定器には高いバイアスと低い分散があると期待していました。
しかし、私にはOLS = 0のバイアスが意外であるというガウスマルコフ定理に出くわしました。OLSのバイアスが高いと予想していたため、OLSのバイアスがどのようにゼロであるかを説明してください。バイアスの理解が間違っているのはなぜですか?
バイアス分散のトレードオフの概念を理解しています。私の理解に基づくバイアスは、単純な分類子(例:線形)を使用して複雑な非線形決定境界をキャプチャするため、エラーを表します。そのため、OLS推定器には高いバイアスと低い分散があると期待していました。
しかし、私にはOLS = 0のバイアスが意外であるというガウスマルコフ定理に出くわしました。OLSのバイアスが高いと予想していたため、OLSのバイアスがどのようにゼロであるかを説明してください。バイアスの理解が間違っているのはなぜですか?
回答:
教師付き学習タスクは、それが回帰であれ、分類であれ、ノイズの多いデータから根本的な信号を学習しようとするものと考えることができます。次の簡単な例を考えてみます。
私たちの目標は、真の信号を推定することです 観測されたペアのセットに基づく どこ そして は平均0のランダムノイズです。このために、モデルを近似します 私たちのお気に入りの機械学習アルゴリズムを使用します。
OLS推定量が公平であると言うとき、私たちが本当に意味することは、モデルの真の形式が、次にOLS推定 そして 素敵な特性を持っている そして 。
これは簡単な例にも当てはまりますが、非常に強力な仮定です。一般に、どのモデルも本当に正しいというわけではないので、このような仮定はできません。。したがって、フォームのモデル うバイアスすること。
代わりに、データがこのようになった場合はどうなりますか?(ネタバレ注意: )
さて、単純なモデルに当てはめると 、それは推定するのにひどく不十分です (高いバイアス)。ただし、その一方で、ノイズの影響を比較的受けません(低分散)。
モデルに項を追加する場合は、 、モデルの構造に追加された複雑さにより、「未知」の信号をより多くキャプチャできます。観測されたデータのバイアスを下げますが、複雑さが加わると必ず分散が増加します。(ただし、 本当に周期的であり、多項式展開は不適切な選択です!)
しかし、繰り返しになりますが、 、我々のモデルはなることはありません公平我々はパラメータに合わせてOLSを使用した場合でも、。