正規分布から得た100の最高値の平均が正規分布の98パーセンタイルと異なるのはなぜですか?


8

正規分布から得た100の最高値の平均が正規分布の98%パーセンタイルと異なるのはなぜですか?当然のことながら、それらは同じである必要があります。だが...

Rのコード:

NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
    x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)

私は、正規分布から最大100を引くとどうなるかについて、何か誤解していると思います。最大値の予想外に非対称な分布によって示されるように。

回答:


10

最大値には正規分布はありません。そのcdfはで、は標準の通常のcdfです。一般に、この分布の瞬間は分析的に取得するのが難しいです。Tippett(Biometrika、1925)によるこれに関する古代の論文があります。 Φ X Φ(x)100Φ(x)


特定のパーセンタイルとN個の値の最大値の違いをわかりやすい言葉で表現する方法はありますか?平易な観点からは、特定の(Y)パーセンタイルからのデータポイントが100 / Yのグループのトップスコアラーと(平均して)同じであると期待されない理由を理解するのは困難です。たとえば、あなたの回答が90パーセンタイルでランク付けされていることがわかった場合、ランダムに選択された10の回答グループの中で、あなたの回答が通常一番上の回答になると思います。
russellpierce 2010

4
@drknexusあなたの直感は正しいです。ただし、サンプリング分布の極値(および極値に近い値)はやや特殊です。それらの値は、片側のデータの質量によって制約されますが、-無限の裾を持つ親分布の場合、それらにはまったく制約がありません。反対側の値。したがって、たとえば、(上限のない分布からの)最大値の分布は明確に歪んでいます。これにより、対応するパーセンタイルと比較して期待値が高くなります。
whuber

2

ランダムな正規分布からの最大100のドローの平均と正規分布の98パーセンタイルに違いがある理由を尋ねました。Rob Hyndmanから受け取った回答はほとんど受け入れられましたが、技術的に複雑すぎて修正せずに受け入れることができませんでした。これらの2つの値が等しくない理由を直感的に理解できるわかりやすい言葉で説明する答えを提供することが可能かどうか疑問に思いました。

結局のところ、私の答えは満足いくほど循環的ではないかもしれません。しかし、概念的には、max(rnorm(100))がqnorm(.98)よりも高くなる傾向がある理由は、要するに、平均して100のランダムな正規分布スコアの最高が、その期待値を超える場合があるためです。ただし、このスコアの歪みは非対称です。低いスコアが描画された場合、100スコアの中で最高のスコアになる可能性は低いからです。それぞれの独立したドローは、期待値を超える、または取得された値が100のドロー値の最大値ではないために無視される新しいチャンスです。視覚的なデモンストレーションでは、最大20個の値のヒストグラムを最大100個の値のヒストグラムと比較すると、スキュー、特にテールの違いがはっきりしています。

私がコメントで尋ねた関連する問題/質問を処理している間に、私は間接的にこの回答に到達しました。具体的には、誰かのテストのスコアが95パーセンタイルにランク付けされていることがわかった場合、他の99人の受験者がいる部屋に平均すると、そのランクは平均で95になると予想します。これは、多かれ少なかれケース(Rコード)...

for (i in 1:NSIM)
{
    rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)

そのロジックの延長として、私は同様に、部屋で100人を取り、95番目に高いスコアの人を選択し、次にさらに99人を取り、それらに同じテストを受けさせた場合、選択した人が平均して新しいグループで95位にランクされます。しかし、そうではありません(Rコード)...

for (i in 1:NSIM)
{
    testtakers <- rnorm(100)
    testtakers <- testtakers[order(testtakers)]
    testtakers <- testtakers[order(testtakers)]
    ranked95 <- testtakers[95]
    rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)

最初のケースが2番目のケースと異なるのは、最初のケースでは、個人のスコアによって正確に95パーセンタイルに配置されることです。2番目のケースでは、それらのスコアは、真の95パーセンタイルよりも多少高いか低い場合があります。100を超えるランクを付けることはできないため、実際に99パーセンタイル以上のランク95スコアを生成するグループは、ランク95スコアが真の90番目をはるかに下回るケースを(平均ランクに関して)相殺できません。パーセンタイル。この回答で提供される2つのランクベクトルのヒストグラムを見ると、上で説明したこのプロセスの結果である上限に範囲の制限があることが簡単にわかります。


2

2つの問題があります。1つは、特定した最高​​値の分布の歪度です。もう1つは、98パーセンタイルを表示するべきではないということです。

最高値の平均の代わりに、中央値を考慮してください。これは注文統計であるため簡単です。すべての100の値が分位点より小さい確率はなので、最大値の中央値の分位数は、つまり、というより。しかし、歪度のために、平均値がさらに高くなることを期待します。q 100 q 100 = 1qq100 q=1q100=120.98q=121/1000.993090.98

Rの例として

require(matrixStats)
NSIM <- 100001
cases <- 100
set.seed(1)
simmat <- matrix(rnorm(cases*NSIM), ncol=cases)
tops <- rowMaxs(simmat)
c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))

与える

> c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
[1] 2.508940 2.464794 2.462038
> c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))
[1] 0.9939453 0.9931454 0.9930925

1

ロブの答えを少し拡張するために、標準正規分布からの独立したドローの最高値の累積分布関数(CDF)を知りたいとします。この最高値を、最初の注文の統計と呼びます。次に、CDFは次のとおりです。X 1X N Y 1NX1,...,XNY1

P(Y1<x)=P(max(X1,...,XN)<x)=P(X1<x,...,XN<x)=P(X1<x)P(XN<x)=P(X<x)100,
ここで、2行目は、描画します。我々はまた、このように書くことができ CDFを表し、この関数の添字として与えられる確率変数のPDFを表します。
FY1(x)=FX(x)100,
Ff

Robは、が標準法線のとして定義されるという標準表記を使用します--- つまり、は標準法線CDFです。Φ(x)P(X<x) Φ(x)

1次統計の確率密度関数(PDF)は、に関するCDFの導関数です: CDF atは、PDFの倍100(つまり)で99(つまり)倍されます。F Y 1X = 100 F XX 99 F XxはxはN - 1 X NをX

fY1(x)=100FX(x)99fX(x)
xN1xN

最終的な方程式に問題があるようです(植字を修正しましたが、以前と同じように翻訳しました)。とは?また、のpdfはと同等ではありません。実際、が正規分布(または任意の連続分布)の場合、 anyなので、pdfになる可能性はありません。 X P X = x X P X = x = 0 xX1XP(X=x)XP(X=x)=0x
マクロ

@マクロ、は独立したドローからの最初のドローです。は1次の統計です(代わりにと書くことをお勧めします)。他のコメントに応じて、表記をより正確にしました。 N Y 1 X 1 X1NY1X(1)
チャーリー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.