いくつかのシミュレーションを行っているときに、サンプルの分位点が真の分位点の偏った推定量であることに気付きました。そして、私のシミュレーションによると、潜在的に非常に偏ったものです。
経験的なCDFは偏っていないのでその結果には驚きましたが、インターネットでの調査の結果、それが本当であることがわかりました。
私はそのバイアスがどこから来ているのかを理解しようとしましたが、サンプル分位点を扱うことは非常に困難です。だれかがそのバイアスの実証(そして理想的には定量化)を持っていますか?
いくつかのシミュレーションを行っているときに、サンプルの分位点が真の分位点の偏った推定量であることに気付きました。そして、私のシミュレーションによると、潜在的に非常に偏ったものです。
経験的なCDFは偏っていないのでその結果には驚きましたが、インターネットでの調査の結果、それが本当であることがわかりました。
私はそのバイアスがどこから来ているのかを理解しようとしましたが、サンプル分位点を扱うことは非常に困難です。だれかがそのバイアスの実証(そして理想的には定量化)を持っていますか?
回答:
分位数を推定する際のバイアスは、分布のない方法で調査されます。
http://www.sciencedirect.com/science/article/pii/S016771520000242X
(PDFは同じページにあります)。著者は、ECDFの反転に基づく変位値推定量に焦点を当てています。基礎となる分布に関する仮定は行われません(有限の2次モーメントを除く)。したがって、離散分布も含まれます。
いくつかのハイライト:
バイアスは、基礎となる分布の標準偏差に比例します
バイアスは、中央の分位数が極端な分位数よりも小さくなります。これは、標準偏差すべての分布の中で、バイアスが長さ間隔で振動するという事実に由来します。驚くべきことに、これはサンプルサイズ依存しません。σ n
ためのすべての標準分布のうち、(平均0、標準偏差1)、最悪のバイアスは、確率の原子を有する分布と関連しているで及び確率の原子を at。のp - √ 1-P √
この古い投稿に追加するだけで、ECDFは高いサンプルサイズでのみ公平になります。Nの値が低い場合、バイアスがかかります。N = 1の自明なケースを取り、ECDFはサンプル値以上で1の値を取ります。1の確率を与える基になる分布の値は何ですか?
バイアスは実際にはsqrt(2 * pi)/(2N)* SDまたは1.25 / N * SDを超えているため、Nが5の場合は0.25 SDバイアスになります。
k / Nに基づくECDFの代わりに、(k-0.5)/ Nを試して、偏りのないECDFを取得します。それはあなたに公平なサンプル分位数を与えるかもしれません。また、ECDF(x)= 1-ECDF(-x)が他のすべての累積分布によって享受されることも保証します。
私の非常に謙虚な意見では、定義されて使用されているECDFは非常に誤った名称です。コルモゴロフスミルノフ、リリーフォース、およびその他の標準テストを低Nでバイアスします。
Gilchristの「分位関数による統計モデリング」を確認してください。
固有の真のサンプル変位値定義が存在します(これは通常提示されるものではありません)。参照:http : //dx.doi.org/10.1155/2014/326579