の1%分位数のための分位数推定量として


8

私は最近、(非統計的、適用された)論文の連続確率変数に対する次の変位値推定量を見つけました:100の長いベクトルx場合、1%変位値はmin(x)推定されます。以下に、その実行方法を示します。以下は、N(0,1)分布からの100個の長いサンプルの100,000回のシミュレーション実行からのmin(x)推定量の実現のカーネル密度プロットです。垂直線は真の値、つまりN(0,1)分布の理論上の1%分位です。シミュレーションのコードも示します。N(0,1)N(0,1)

ここに画像の説明を入力してください

M=10e5; n=100
quantiles=rep(NA,M)
for(i in 1:M){ set.seed(i); quantiles[i]=min(rnorm(n)) }
plot(density(quantiles),main="Kernel density estimate of quantiles from M=100,000 simulation runs"); abline(v=qnorm(1/n))

グラフは、分布(例)については質的に似ています。どちらの場合も、推定量は下方に偏っています。ただし、他の推定量と比較しないと、それ以外の点でどれほど優れているかを言うのは困難です。したがって、私の質問:予想される絶対誤差または予想される二乗誤差の意味でより優れている代替推定器はありますか?t(3)


3
まあ、100の1%は1なので、は1%の経験的分位数です。min{Xi}
西安

@ Xi'anは、同時に、データの1%が低い値を持っているのに対して、データの99%がより大きい値を持っているという点ではありません。実際、この推定量の設計により、データの0%の値はよりも低くなっています。それが問題ではないかと思います。(この例では、分布が連続的であると想定できます)。min(x)
Richard Hardy

1
一方、100回の観測に基づいて1%の分位数を推定することは、データから少なすぎます。
西安

1
「良い」とはどういう意味ですか?あなたの損失関数は何ですか?そしてあなたの根本的な確率モデルは何ですか?
whuber

2
最小値は、分布に有限の下限がある場合など、非常に優れた推定量になる可能性があります。左尾が重い場合、最小値の分散が非常に大きくなるため、推定量が少なくなる可能性があります。対称性は重要ではありません。これは、最小値の分布が上部テールによって大きく影響を受けることはないためです。パラメトリックな問題の場合、特にロケーションスケールのファミリでは、Aksakalの回答は、パーセンタイルのより良い推定量を構築する方法を示唆しています。これらは一般に許容範囲として知られています。ノンパラメトリック問題の場合、それはすべて異なります。
whuber

回答:


4

実際には、観測値が100の最小サンプルが1%変位値の推定量として使用されます。「経験的パーセンタイル」と呼ばれるものを見たことがあります。

既知の配布ファミリー

別の推定値が必要で、データの分布についてのアイデアがある場合は、次数統計中央値を確認することをお勧めします。たとえば、このRパッケージはそれらを確率プロット相関係数PPCCに使用します。あなたは彼らがノーマルのようないくつかのディストリビューションでそれをどのように行うかを見つけることができます。あなたは「通常、対数正規、およびガンベル分布的Hypotheseのための確率プロットの相関係数テスト」フォーゲルの1986年の論文で詳細を見ることができ、ここで、通常と対数正規分布のための統計中央値に。

たとえば、Vogelの論文Eq.2は、標準正規分布からの100個の観測サンプルのmin(x)を次のように定義しています。M_1 ここで、 CDFの中央値:

M1=Φ1(FY(min(y)))
F^Y(min(y))=1(1/2)1/100=0.0069

次の値を取得しますパーセンタイルの推定値を取得するために場所とスケールを適用できる標準法線の:。M1=2.46μ^2.46σ^

ここでこれが正規分布のmin(x)とどのように比較されるか:

ここに画像の説明を入力してください

一番上のプロットは1パーセンタイルのmin(x)推定量の分布で、一番下のプロットは私が見ることを提案したものです。以下のコードも貼り付けました。コードでは、正規分布の平均と分散をランダムに選択し、長さ100の観測値のサンプルを生成します。次に、min(x)を見つけて、正規分布の真のパラメーターを使用して標準正規にスケーリングします。M1メソッドの場合、推定平均と分散を使用して変位値を計算し、真のパラメーターを再び使用して標準にスケーリングします。この方法で、平均と標準偏差の推定誤差の影響をある程度説明できます。また、真のパーセンタイルを垂直線で示しています。

M1推定量がmin(x)よりもはるかにタイトであることがわかります。これは、真の分布タイプ、つまり正規分布の知識使用するためです。まだ真のパラメーターはわかりませんが、分布族を知っていても、推定値は大幅に改善されました。

オクターブコード

ここでオンラインで実行できます:https : //octave-online.net/

N=100000
n=100

mus = randn(1,N);
sigmas = abs(randn(1,N));
r = randn(n,N).*repmat(sigmas,n,1)+repmat(mus,n,1);
muhats = mean(r);
sigmahats = std(r);

fhat = 1-(1/2)^(1/100)
M1 = norminv(fhat)
onepcthats = (M1*sigmahats + muhats - mus) ./ sigmas;

mins = min(r);
minonepcthats = (mins - mus) ./ sigmas;

onepct = norminv(0.01)

figure
subplot(2,1,1)
hist(minonepcthats,100)
title 'min(x)'
xlims = xlim;
ylims = ylim;
hold on
plot([onepct,onepct],ylims)

subplot(2,1,2)
hist(onepcthats,100)
title 'M1'
xlim(xlims)
hold on
plot([onepct,onepct],ylims)

不明な分布

データの出所がわからない場合は、財務リスクアプリケーションで使用される別のアプローチがあります。ジョンソン分布にはSUとSLの2つがあります。前者は、NormalやStudent tなどの無制限の場合で、後者は、対数正規などの下限の場合です。あなたはできるフィットその後、推定されたパラメータは、必要な分位数を推定使って、あなたのデータへのジョンソン分布を。Tuenter(2001)は、実際に一部で使用されているモーメントマッチングのフィッティング手順を提案しました。

min(x)よりも良いでしょうか?確かなことはわかりませんが、たとえば、分布はわかりませんが、下限がわかっている場合など、私の練習ではより良い結果が得られることがあります。


1
@RichardHardy、私が提案していることとそれがmin(x)でどのように改善されるかを示すためにデモを追加しました。いいえ、Vogelはmin(x)についてさえ話していません。それはあなたのケースへのメジアン法の私の適用です。PPCCは、サンプルの1からn番目までの分位数を使用します。100の観測サンプルでは、​​min(x)は1パーセンタイルです。
Aksakal

更新していただきありがとうございます!私が尋ねていたのは、フォーゲルの論文Eq.2が100個の観測サンプルのmin(x)を定義していることです。min(x)の代わりにがあるべきですか?そうでなければ実際にmin(x)はリテラルmin(x)とは異なるものとして再定義されているので、それが私の印象です。M1
Richard Hardy

@RichardHardy、それらは観測値を並べ替えるため、M1はmin(x)になります
Aksakal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.