回答:
最大値には正規分布はありません。そのcdfはで、は標準の通常のcdfです。一般に、この分布の瞬間は分析的に取得するのが難しいです。Tippett(Biometrika、1925)によるこれに関する古代の論文があります。 Φ (X )
ランダムな正規分布からの最大100のドローの平均と正規分布の98パーセンタイルに違いがある理由を尋ねました。Rob Hyndmanから受け取った回答はほとんど受け入れられましたが、技術的に複雑すぎて修正せずに受け入れることができませんでした。これらの2つの値が等しくない理由を直感的に理解できるわかりやすい言葉で説明する答えを提供することが可能かどうか疑問に思いました。
結局のところ、私の答えは満足いくほど循環的ではないかもしれません。しかし、概念的には、max(rnorm(100))がqnorm(.98)よりも高くなる傾向がある理由は、要するに、平均して100のランダムな正規分布スコアの最高が、その期待値を超える場合があるためです。ただし、このスコアの歪みは非対称です。低いスコアが描画された場合、100スコアの中で最高のスコアになる可能性は低いからです。それぞれの独立したドローは、期待値を超える、または取得された値が100のドロー値の最大値ではないために無視される新しいチャンスです。視覚的なデモンストレーションでは、最大20個の値のヒストグラムを最大100個の値のヒストグラムと比較すると、スキュー、特にテールの違いがはっきりしています。
私がコメントで尋ねた関連する問題/質問を処理している間に、私は間接的にこの回答に到達しました。具体的には、誰かのテストのスコアが95パーセンタイルにランク付けされていることがわかった場合、他の99人の受験者がいる部屋に平均すると、そのランクは平均で95になると予想します。これは、多かれ少なかれケース(Rコード)...
for (i in 1:NSIM)
{
rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)
そのロジックの延長として、私は同様に、部屋で100人を取り、95番目に高いスコアの人を選択し、次にさらに99人を取り、それらに同じテストを受けさせた場合、選択した人が平均して新しいグループで95位にランクされます。しかし、そうではありません(Rコード)...
for (i in 1:NSIM)
{
testtakers <- rnorm(100)
testtakers <- testtakers[order(testtakers)]
testtakers <- testtakers[order(testtakers)]
ranked95 <- testtakers[95]
rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)
最初のケースが2番目のケースと異なるのは、最初のケースでは、個人のスコアによって正確に95パーセンタイルに配置されることです。2番目のケースでは、それらのスコアは、真の95パーセンタイルよりも多少高いか低い場合があります。100を超えるランクを付けることはできないため、実際に99パーセンタイル以上のランク95スコアを生成するグループは、ランク95スコアが真の90番目をはるかに下回るケースを(平均ランクに関して)相殺できません。パーセンタイル。この回答で提供される2つのランクベクトルのヒストグラムを見ると、上で説明したこのプロセスの結果である上限に範囲の制限があることが簡単にわかります。
2つの問題があります。1つは、特定した最高値の分布の歪度です。もう1つは、98パーセンタイルを表示するべきではないということです。
最高値の平均の代わりに、中央値を考慮してください。これは注文統計であるため簡単です。すべての100の値が分位点より小さい確率はなので、最大値の中央値の分位数は、つまり、というより。しかし、歪度のために、平均値がさらに高くなることを期待します。q 100 q 100 = 1 q=10.98
Rの例として
require(matrixStats)
NSIM <- 100001
cases <- 100
set.seed(1)
simmat <- matrix(rnorm(cases*NSIM), ncol=cases)
tops <- rowMaxs(simmat)
c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))
与える
> c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
[1] 2.508940 2.464794 2.462038
> c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))
[1] 0.9939453 0.9931454 0.9930925
ロブの答えを少し拡張するために、標準正規分布からの独立したドローの最高値の累積分布関数(CDF)を知りたいとします。この最高値を、最初の注文の統計と呼びます。次に、CDFは次のとおりです。X 1、。。。、X N Y 1
Robは、が標準法線のとして定義されるという標準表記を使用します--- つまり、は標準法線CDFです。
1次統計の確率密度関数(PDF)は、に関するCDFの導関数です: CDF atは、PDFの倍100(つまり)で99(つまり)倍されます。F Y 1(X )= 100 ⋅ F X(X )99 F X(xは)xはN - 1 X Nを