統計学の文献ではバイアスという用語がよく使われていると聞いています。
例えば、
平均的な補完を使用することにより、推定にバイアスを加えています。
もう一つの例、
バイアス分散のトレードオフは、モデルを選択する際の重要な課題です。
これらは同じ「バイアス」ですか?
統計学の文献ではバイアスという用語がよく使われていると聞いています。
例えば、
平均的な補完を使用することにより、推定にバイアスを加えています。
もう一つの例、
バイアス分散のトレードオフは、モデルを選択する際の重要な課題です。
これらは同じ「バイアス」ですか?
回答:
「バイアス」という用語には、統計資料(推定者の期待値と推定されるものとの差)で特定の定義がありますが、それが本来のより一般的な意味を失うとは限りません。どちらが意図されているかはコンテキストに依存し、多くの場合、2つが混在することになります。
データ補完は、パラメータの真の値が存在することさえ想定する必要のない、適用された問題で使用される方法であるため、最初の使用法は一般にそれほど正確ではありません。ここでは、基本的に「ゼロに向かって縮小」と同義です。
2番目の用法に関する限り、バイアス分散のトレードオフという用語は、もともとバイアスのより正式な定義に由来しますが、それでもなお、これはモデルフィッティング手順の一般的な「柔軟性」について言及しているのではなく、推定された回帰関数が平均して正しいかどうかの問題です。
この用語は紛らわしいことに同意します。バイアスは、これらのコンテキストの両方で1つの意味を持ちます。理想値またはターゲット値からの距離ですが、解釈は、話している空間によって異なります。質問の2つの引用符について私が何を意味するかを説明します。
平均的な補完を使用することにより、推定にバイアスを加えています。
これは、データ空間のバイアスを指します。平均的な補完は、ターゲット値に対する推定の位置に影響します。
バイアス分散のトレードオフは、モデルを選択する際の重要な課題です。
これは、モデルのパラメーター空間におけるバイアスと分散を指します。つまり、確率モデルを1000回トレーニングした場合、パラメーター値のバイアスまたは分散を観察できます。ハイバイアスモデルには一貫したパラメーターがありますが、「最適な」ソリューションとは異なります。高分散モデルは、トレーニングされるたびにパラメーターの異なる値を取得します。