偏った最尤推定量の背後にある直感的な推論


25

偏りのある最尤(ML)推定量に混乱があります。概念全体の数学は私にはかなり明確ですが、その背後にある直感的な推論を理解することはできません。

分布からのサンプルを含む特定のデータセットがあり、それ自体が推定するパラメーターの関数である場合、ML推定器は、データセットを生成する可能性が最も高いパラメーターの値になります。

バイアス付きML推定量を直感的に理解することはできません。パラメーターの最も可能性のある値は、間違った値へのバイアスを伴うパラメーターの実際の値をどのように予測できるのでしょうか。



ここでのバイアスに焦点を当てると、この質問と提案された複製とが区別される可能性があると思いますが、それらは確かに非常に密接に関連しています。
シルバーフィッシュ

回答:


14

ML推定量は、データセットで発生する可能性が最も高いパラメーターの値をもたらします。

仮定を考えると、ML推定量は、データセットを生成する可能性が最も高いパラメーターの値です。

「パラメータの最も可能性の高い値は、間違った値への偏りがあるパラメータの実際の値をどのように予測できるか」という意味で、偏ったML推定量を直感的に理解できません。

バイアスは、サンプリング分布の期待に関するものです。「データを生成する可能性が最も高い」とは、サンプリング分布の期待に関するものではありません。なぜ彼らは一緒に行くことが期待されますか?

それらが必ずしも一致しないという驚くべき根拠は何ですか?

MLEのいくつかの単純なケースを検討し、それらの特定のケースでどのように違いが生じるかを熟考することをお勧めします。

例として、上のユニフォームでの観測を考えます。最大の観測値は(必然的に)パラメーターより大きくないので、パラメーターは少なくとも最大の観測値と同じ大きさの値しか取得できません。(0,θ)

の尤度を考慮すると、が最大の観測値に近いほど(明らかに)大きくなります。したがって、最大の観測で最大化さます。それは明らかに、取得したサンプルを取得する機会を最大化するの推定値です。θθθ

ここに画像の説明を入力してください

しかし、一方で、最大の観測値は明らかに(確率1で)真の値よりも小さいため、バイアスをかける必要があります。サンプル自体によってまだ除外されていないその他の推定値はそれより大きくなければならず、(この場合は明らかに)サンプルを生成する可能性は低くなければなりません。θθθ

からの最大の観測値の期待値はであるため、バイアスを解除する通常の方法は:推定量として取得することです。、ここでは最大の観測値です。nうん0θ θ θ =N+1nn+1θXnθ^=n+1nバツnバツn

これはMLEの右側にあるため、可能性は低くなります。


ご回答有難うございます。最初の部分について、私は自分自身を間違って表現しました。私は基本的にあなたが言ったことを意味しました。2番目の部分に対するあなたの答えに基づいて、同じ分布から引き出された別のデータセットが与えられた場合、ML推定器は異なるバイアスをもたらすと結論付けることができますか?ML推定器は、「最も可能性の高い」データを生成するものであると言うので。データを変更すると、他の推定者がデータを生成する可能性が高くなります。あれは正しいですか?
ssah 14年

人口分布の形が変わらない場合、推定量は変わりません。他の推定値は異なるサンプルで生成され、バイアスされる量は一般的に異なります。バイアスは通常、母集団が同じであってもサンプルサイズに関連しています。...(ctd)
グレン_b-モニカの復職14

(ctd)...上記のいくつかの編集を行ったので、役に立つかもしれません。上記の例のコンテキストでは、異なるサンプル(たとえば、ではなくのサイズで-ML 推定量の形式は「サンプルの最大の観測」のままですが、推定値は異なります(同じあっても)、バイアスも通常異なります(サンプルサイズの効果のため)。nはθmnθ
グレン_b-モニカの復活14

偏りのない推定量とML推定量の違いを確認するための標準的な例を使用します。
JWG

6

β β β M L EβMLEは最も可能性の高い値ではありません。最も可能性の高い値は自体です。は、実際に取得したサンプルを描画する確率を最大化します。βββMLE

MLEは漸近的に偏りがなく、多くの場合、有限サンプルでより適切に動作するように推定器を調整できます。たとえば、ランダム変数の分散のMLEは1つの例で、で乗算すると変換されます。NN1


最初の部分の間違いでごめんなさい。編集して修正しました。しかし、MLEについてあなたが言ったことについて、なぜ非漸近的ケースではそもそもバイアスがかかっているのでしょうか?
ssah

2
「より良い」はあなたが見ているものに依存します。ベッセルの補正により偏りはなくなりますが、偏り自体は自動的に「改善」されるわけではありません(たとえば、MSEは悪化します。なぜ、より小さなMSEより偏りのないほうがよいのでしょうか?)。不偏性は良好であると主張されるかもしれない、paribusをceterisが、残念ながらceterisはなりませんparibus
グレン_b-モニカの復帰14

私の理解では、MLEとCramer-Raoの下限の間の関係を通して、不偏推定量が最も不偏であることを示すことができるということでした。
Dimitriy V. Masterov

@ssah式で真の平均の代わりにサンプル平均を使用しているためだと言われました。正直に言うと、平均のMLE推定量に偏りがない場合、なぜこれが間違っているのでしょうか?私は通常、シミュレーションに疑問を投げかけます。
Dimitriy V. Masterov

5

これが私の直観です。

バイアスはの尺度である精度が、という概念もあります精度

ここに画像の説明を入力してください

理想的な世界では、正確で正確な推定値が得られます。つまり、常にブルズアイに当たります。残念ながら、不完全な世界では、精度と精度のバランスを取る必要があります。時々、精度を上げるために少しの精度を与えることができると感じるかもしれません。私たちは常にトレードオフします。したがって、推定量が偏っているという事実は、それが悪いことを意味するものではありません。より正確である可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.