通常のランダム変数の近似次数統計


38

特定のランダム分布の次数統計のためのよく知られた公式はありますか?特に、通常のランダム変数の最初と最後の統計値ですが、より一般的な回答も歓迎します。

編集:明確にするために、厳密な積分式ではなく、多少なりとも明示的に評価できる近似式を探しています。

たとえば、通常のrvの1次統計量(つまり最小値)について、次の2つの近似を見ました。

e1:nμn12n1σ

そして

e1:nμ+Φ1(1n+1)σ

これらの最初のについては、およそを与えます。n=200e1:200μ10σ

2番目はを与えますが、素早いモンテカルロはを与えます。さらに重要なことに、私はそれがどこから来たのかについて直感を持っていません。e1:200μ2.58σe1:200μ2.75σ

助けがありますか?


4
Rを使用する場合は、ppoints関数を参照してください。
枢機

1
@probabilityislogicは、リストする近似値に対していくつかの良い直観を与えました。私が別の観点からもう少し話をした場合、またはこの問題についてあなたの好奇心を満たした場合、それはまったく役に立ちますか?
枢機

回答:


31

古典的なリファレンスはRoyston(1982)[1]であり、明示的な式を超えたアルゴリズムを持っています。また、Blom(1958)によるよく知られた式も引用しています: と。この式は、 -2.73の乗数を与えます。E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1]:アルゴリズムAS 177:予想される通常次数統計(正確および近似) JPロイストン。王立統計学会誌。シリーズC(応用統計)Vol。31、No。2(1982)、pp。161-165


21

連続ランダムのi次統計量の分布PDFの変数は、「ベータF」複合分布によって与えられます。この分布について考える直観的な方法は、サンプルでi次の統計量を考慮することです。ランダム変数のi次統計量の値がと等しくなるためには、3つの条件が必要です。NXx
  1. i1未満の値。これは、各観測値確率を持ちます。ここで、は確率変数XのCDFです。xFX(x)FX(x)=Pr(X<x)
  2. Ni上の値、これは確率x1FX(x)
  3. を含む無限小区間内の1つの値、これには確率がありますは確率変数 PDFxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

この選択を行うには方法があります。(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

私の元の投稿で編集、私はこの点からさらに進むことで非常に悪い試みをしました、そして以下のコメントはこれを反映しています。私はこれを以下で修正しようとしました

このpdfの平均値を取得すると、次のようになります。

E(Xi)=xifi(xi)dxi

そして、この積分では、変数次のように変更します(@henryのヒントを使用)。積分は次のようになります。pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

したがって、これは逆CDFの期待値であり、デルタ法を使用して次のように近似できます。

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

より適切な近似を行うには、2次(微分を示す素数)に展開し、逆の2次導関数が次のようになることに注意します。

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

ましょう。それから私達にあります:νi=FX1[iN+1]

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

さて、通常の場合に特化した

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

なお、そして、およそ次のようになります。fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

そして最後に:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

@whuberが指摘しているように、これは正確ではありません。実際には、異なるパラメーターを持つベータの歪度のために、それはより悪いかもしれないと思います


1
確率変数の最尤推定量」?それが何なのかわかりませんが、あなたは(ほぼ)modeを計算したと思います。
枢機

1
警告や定義なしに突然とが表示されると、途中の3分の2で不思議なことが起こります。μσ
whuber

2
「積み重ねる」つもりはありませんが、括弧内の数量を負の数値で近似する方法を理解するのも困難です。
枢機

1
微積分のレベルでは、あなたがいることを言うかもしれないが@probabilityislogic、このケースでは、我々は二変数関数を検討しているし、単に代わりに別の1つの変数の上に最大限に、私は、数学、統計的な理由があると思うし、教育的ではない何を呼び出すために「最尤推定」を完了しました。数が多すぎてこのスペースで列挙することはできませんが、私が十分に説得力があると思うのは、統計に特定の不可解な語彙を使用することです。単一問題の気まぐれで(S)... / ...誤解につながることを変える
カーディナルを

2
修正された回答については、@ probabilityislogic(+1)。一つの提案は、「暗黙」を意味するに、おそらくがよりも優れていることです。収束の主張をしていないことに気付くには、数行を見つめる必要がありました。
枢機

13

Anikoの答えは、選択を含むBlomのよく知られた式に依存しています。この式自体は、G。Elfving(1947)、正常な集団からのサンプルの範囲の無症状分布、Biometrika、Vol。34、pp。111-119。Elfvingの式は、サンプルの最小値と最大値を対象としています。アルファの正しい選択はです。を近似すると、Blomの式が得られます。α=3/8π/8π3

Blomの近似ではなくElfvingの式を使用することにより、-2.744165の乗数が得られます。この数は、Blomの近似(-2.73)よりもErik P.の正確な答え(-2.746)およびMonte Carlo近似(-2.75)に近く、正確な式よりも実装が簡単です。


Elfving(1947)でに到達する方法について、もう少し詳しく教えていただけますか?記事では明らかではありません。α=π/8
アンソニー

1
Anthony-私は、パブのSamuel Wilksによる教科書Mathematical Statisticsに依存しています。ワイリー(1962)。p。8の演習8.21 249州:「x_(1)、x_(n)が連続cdf F(x)からのサイズnのサンプルの最小および最大次数統計である場合...ランダム変数2n * sqrt {[F(x_( 1))] [1-F(x_(n))]}には、n->無限大、平均pi / 2および分散4-(pi ^ 2)/ 4の極限分布があります。 " (申し訳ありませんが、マークアップコードはわかりません!)対称分布の場合、F(x_(1))= 1-F(x_(n))。したがって、F(x_(n))は約pi /(4n)、またはx_(n)は約F ^(-1)(pi /(4n))です。Blomの式は、近似3 /(4n)を使用します。
ハルM.スウィッキー

これは、インディアナ州議会に起因する悪名高い「」法案を思い出させます。(ウィキペディアの記事では、人気のあるバージョンのストーリーは正確ではないことが示唆されています。)π=3
steveo'america

7

あなたが何をしたいかによって、この答えは助けになるかもしれませんし、助けにならないかもしれません-私はMapleの統計パッケージから次の正確な式を得ました。

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

これ自体はあまり有用ではありません(また、ランダム変数の最小値であるため、おそらく手動でかなり簡単に導出できます)が、特定の値に対して迅速かつ非常に正確な近似を可能にします-モンテカルロ:nn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

-2.746042447と-2.746042447451154492412344をそれぞれ与えます。

(完全な開示-このパッケージを維持します。)


1
@ProbabilityIsLogicは、返信の前半ですべての注文統計についてこの積分を導き出しました。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.