タグ付けされた質問 「extreme-value」

極値は、サンプル内の最大または最小の観測値です。たとえば、サンプルの最小値(1次の統計)とサンプルの最大値(n次の統計)。極値には、漸近*極値分布*が関連付けられています。

10
タレブと黒い白鳥
Talebの本「The Black Swan」は、数年前に発売されたNew York Timesのベストセラーでした。この本は現在第2版になっています。JSM(年次統計会議)で統計学者と会った後、タレブは統計に対する彼の批判をいくらか抑えました。しかし、本の趣旨は、統計が非常に有用ではないということです。統計は正規分布と非常にまれなイベントに依存しているためです。「Black Swans」には正規分布がありません。 これは正当な批判だと思いますか?タレブは統計的モデリングの重要な側面を逃していますか?少なくとも、発生の確率を推定できるという意味で、まれなイベントを予測できますか?

2
極値理論-ショー:ガンベルに垂直
の最大値 iid Standardnormalsは、極値理論に従って標準ガンベル分布に収束します。バツ1、… 、Xn。〜X1,…,Xn.∼X_1,\dots,X_n. \sim どのようにそれを示すことができますか? 我々は持っています P(最大X私≤ X )= P(X1≤ X 、... 、Xn≤ X )= P(X1≤ X )⋯ P(Xn≤ X)= F(x )nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n 我々は、選択/検索する必要が定数のシーケンスように:F \左(A_N X + B_N \右)^ …

5
極値理論を使用する理由
私は土木工学から来ています。GEV分布のような極値理論を使用して、最大風速のような特定のイベントの値、つまり風速の 98.5%が低い値を予測します。 私の質問は、なぜそのような極値分布を使用するのかということです。全体の分布を使用して、98.5%の確率の値を取得する方が簡単ではないでしょうか?


1
極端な値で依存している(おおよそ)独立変数の例はありますか?
私は2つの確率変数の例を探していますXXX、YYY、このような |cor(X,Y)|≈0|cor(X,Y)|≈0\newcommand{\cor}{{\rm cor}}|\cor(X,Y)| \approx 0 しかし、分布のテール部分を考慮すると、それらは非常に相関しています。(テールが線形ではない可能性があるため、テールの「相関」/「相関」を回避しようとしています)。 おそらくこれを使用します: |cor(X′,Y′)|≫0|cor(X′,Y′)|≫0|\cor(X', Y')| \gg 0 どこX′X′X'上の条件付きであるX>90%X>90%X > 90\%のXXXの人口、およびY′Y′Y'同じ意味で定義されています。

1
男性と女性のチェスプレーヤー-分布の末尾で予想される差異
2009年のこの論文の調査結果に興味があります。 (最高の)女性はなぜチェスが得意なのですか?知的領域における参加率と性差 このペーパーでは、最高の男性チェスプレーヤーが最高の女性プレーヤーよりもはるかに優れているように見える理由を説明しようとしています(女性は世界最高の1000プレーヤーのわずか2%を占めています)。具体的には、最高の男性と最高の女性のチェスプレーヤーの大きな不一致は、2つの事実によって完全に説明されていると主張しています。 女性のチェスプレーヤーの15倍以上の男性がいます この比率は、完全に統計的な理由から、分布の極端な部分で悪化すると予想されます。論文を引用するには: 2つのグループの平均(平均)と変動(sd)が同じ場合でも、最もパフォーマンスの高い個人は、より大きなグループから来る可能性が高くなります。2つのグループ間のサイズの差が大きいほど、2つのグループのトップパフォーマー間で予想される差は大きくなります。 そしてまた、 この調査は、男性と女性のチェスプレーヤーの最高のパフォーマンスの大きな不一致が、単純な統計的事実に大きく起因していることを示しています。 そのため、著者によると、チェスプレイヤーの6%だけが女性である場合、上位1000人のうち2%しか期待できないため、生物学的な違いや社会的バイアスに関する他の説明は必要ありません。 私の質問 分布の両端で人口規模のわずかな違いが悪化するという考えに頭を悩ますことはできません。特に、この反例の何が問題なのか: 12月のチェスプレーヤーのうち約1人が1月に生まれます。したがって、彼らはすべてのチェスプレイヤーのほんの一部を占めています。これらの統計的手法により、それらは最高レベルで特に過小評価されることが予想されます-1月に生まれるトッププレイヤーのうち30人に1人しかいないでしょう。しかし、もちろんこの同じロジックを毎月適用することもでき、最終的には不合理な結論に達します。 人口を2つのグループに分けると、スケールの両端で同じ比率のパフォーマーを期待するように思えます。 公開された論文の結果と矛盾しているので、私は尋ねなければならないと思います-私は何を間違っていますか?

2
一様分布のユークリッドノルムの裾境界
一様に選択された要素のユークリッドノルムの頻度に関する既知の上限所定のしきい値よりも大きくなりますか?{−n, −(n−1), ..., n−1, n}d{−n, −(n−1), ..., n−1, n}d\:\{-n,~-(n-1),~...,~n-1,~n\}^d\: 私は主に、がよりはるかに小さい場合に指数関数的にゼロに収束する範囲に関心があります。nnnddd


2
IIDランダム法線の最大次数統計量の漸近分布
素敵な極限分布があるとしては、n個に行く\ inftyの彼らがあることを想定し、IID分散を持つ正規分布\シグマ^ 2。max(X1,X2,...,Xn)max(X1,X2,...,Xn)\max( X_1,X_2,...,X_n) ∞nnn∞∞\inftyσ2σ2\sigma^2 これはほぼ間違いなく、巧妙な証明と優れたソリューションを備えたよく知られている問題ですが、私は何も調べていませんでした。

2
iidガウシアンの最大値について最も強力な結果は何ですか?実際に最も使用されていますか?
与えられたバツ1、… 、Xん、... 〜N(0 、1 )X1,…,Xn,…∼N(0,1)X_1, \ldots, X_n, \ldots \sim \mathscr{N}(0,1) IID、ランダムな変数を考慮 Zん:= 最大1つの≤ I ≤ Nバツ私。Zn:=max1≤i≤nXi. Z_n := \max_{1 \le i \le n} X_i\,. 質問:これらの確率変数について最も「重要な」結果は何ですか? 「重要性」を明確にするために、論理的帰結として他の最も多くの結果を持っている結果はどれですか?実際に最も頻繁に使用される結果はどれですか? より具体的には、ZんZnZ_nが「基本的には同じ」であることは、(理論上の)統計学者の間の民間伝承の知識のようです2 ログん−−−−−√2log⁡n\sqrt{2 \log n}、少なくとも漸近的に。(この関連質問を参照してください。) ただし、このタイプには多くの関連する結果があり、ほとんどが同等ではなく、相互に示唆しているわけでもないようです。例えば∗、∗∗^* Zん2 ログん−−−−−√→A 。s 。1、(1)(1)Zn2log⁡n→a.s.1, \frac{Z_n}{\sqrt{2 \log n}} \overset{a.s.}{\to} 1 \,, \tag{1} 他に何もない場合は、対応する確率と分布の結果も意味します。 ただし、一見関連のある結果(この他の質問を参照)も示唆していません。 リムn → ∞E Zん2 ログん−−−−−√= 1、(2)(2)limn→∞EZn2log⁡n=1, …

1
ブートストラップを使用して1パーセンタイルのサンプリング分布を取得する
母集団からのサンプル(サイズ250)があります。人口の分布はわかりません。 主な質問:母集団の1パーセンタイルの点推定が必要です。次に、点推定の周りに95%の信頼区間が必要です。 私の点推定値は、サンプル1になり番目のパーセンタイル。私はそれをと表します。xxx その後、ポイント推定値の周囲に信頼区間を構築しようとします。ここでブートストラップを使用するのは理にかなっているのでしょうか。私はブートストラップに非常に慣れていないので、適切な用語を使用できない場合などはご容赦ください。 ここに私がそれをやろうとした方法があります。元のサンプルから置き換えて、ランダムなサンプルを1000個描画します。それぞれから1パーセンタイルを取得します。したがって、私は1000ポイントを持っている- "1 stは -percentiles"。これらの1000ポイントの経験的分布を見てみましょう。その平均ます。次のように「バイアス」を示します:。私は2.5とり番目のパーセンタイルと97.5 番目の下、私は1の周りの95%信頼区間と呼ぶもののハイエンド得るために、1000ポイントのパーセンタイルをSTパーセンタイル元のサンプルのを。これらの点をおよびます。xmeanxmeanx_{mean}bias=xmean−xbias=xmean−x\text{bias}=x_{mean}-xx0.025x0.025x_{0.025}x0.975x0.975x_{0.975} 最後のステップは、この信頼区間を、元のサンプルの1パーセンタイル付近ではなく、母集団の1パーセンタイル付近になるように調整することです。したがって、を下限とし、を上限とします人口の1つの点推定値の周りの95%信頼区間の番目のパーセンタイル。この最後のインターバルが私が求めていたものです。x−bias−(xmean−x0.025)x−bias−(xmean−x0.025)x-\text{bias}-(x_{mean}-x_{0.025})x−bias+(x0.975−xmean)x−bias+(x0.975−xmean)x-\text{bias}+(x_{0.975}-x_{mean}) 重要な点は、私の意見では、それは1つのために使用するブートストラップに理にかなっているかどうかであるSTのかなり近い人口の未知の根本的な分布のテールにあるパーセンタイル。問題があるのではないかと思います。ブートストラップを使用して、最小値(または最大値)の信頼区間を構築することを検討してください。 しかし、おそらくこのアプローチには欠陥がありますか?私にお知らせください。 編集: もう少し問題についての考えを持って、私は私の解決策は、以下のことを意味していることがわかり:経験1 番目のパーセンタイル元のサンプルの1の偏った推定かもしれSTパーセンタイル人口の。もしそうなら、ポイント推定はバイアス調整されるべきです:。そうでない場合、バイアス調整された信頼区間は、バイアス未調整のポイント推定と互換性がありません。ポイント推定値と信頼区間の両方を調整するか、どちらも調整しない必要があります。x−biasx−biasx-\text{bias} 一方、見積もりにバイアスをかけることを許可しなかった場合は、バイアス調整を行う必要はありません。つまり、をポイント推定値として、を下限として、を95%の上限として信頼区間。この間隔が意味を成しているかどうかはわかりません...xxxx−(xmean−x0.025)x−(xmean−x0.025)x-(x_{mean}-x_{0.025})x+(x0.975−xmean)x+(x0.975−xmean)x+(x_{0.975}-x_{mean}) だから、サンプル1と仮定することは何の意味も持たないSTはパーセンタイル人口1の偏った推定値である番目のパーセンタイル?そうでない場合、私の代替ソリューションは正しいですか?

1
極値理論:対数正規GEVパラメーター
対数正規分布は、Gumbelの最大引力領域に属します。ここで、 FlogN(x;μ,σ)=Φ(lnx−μσ)FlogN(x;μ,σ)=Φ(ln⁡x−μσ)F^{logN}(x; \mu,\sigma)=\Phi\left(\frac{\ln x - \mu}{\sigma}\right)、 FGum(x;μ,β)=e−exp(−x−μβ)FGum(x;μ,β)=e−exp⁡(−x−μβ)F^{Gum}(x;\mu,\beta) = e^{-\exp\left({-\frac{x-\mu}{\beta}}\right)} 私の質問:μ=μμ=μ\mu=\muとσ=βσ=β\sigma=\betaますか? 極値分布はまた、表記使用β=σβ=σ\beta=\sigma(ガンベルが制限ケースでξ=0ξ=0\xi =0)、および標準対数正規と標準ガンベルためのCDFを比較すると、再びパラメータが一致する意味するものであろう。しかし、Gumbelは対数正規マキシマの限定的なケースであるため、私はそれについて確信がありません。そのため、パラメーターの変換も行われる可能性があります。

2
iidの描画のペアの最大値の分布とは何ですか?最小値は他の最小値の次数統計です?
検討する n⋅mn⋅mn\cdot m cdfからの独立した描画 F(x)F(x)F(x)、これは0-1で定義され、 nnn そして mmm整数です。ドローを任意にグループ化nnn各グループにm値を持つグループ。各グループの最小値を見てください。これらの最小値が最も大きいグループを取り上げます。さて、そのグループの最大値を定義する分布は何ですか?より一般的には、jjj-次の統計 mmm のドロー F(x)F(x)F(x)、それらのmドローのk次は、そのk次統計のnドローのp次でもありますか? これらはすべて抽象的なものなので、より具体的な例を次に示します。8回の抽選を検討してくださいF(x)F(x)F(x)。それらを2の4つのペアにグループ化します。各ペアの最小値を比較します。これらの4つの最小値の最も高いペアを選択します。「a」を描くラベル。同じペアのもう一方の値に「b」というラベルを付けます。分布とはFb(b)Fb(b)F_b(b)?知ってるb>ab>ab>a。aは4の最小値の最大値です。F(x)F(x)F(x)、の Fa(a)=(1−(1−F(x))2)4Fa(a)=(1−(1−F(x))2)4F_a(a) = (1-(1-F(x))^2)^4。とはFb(b)Fb(b)F_b(b)?

1
iidサンプルの2つの最小実現の比率が1になるような正のサポートを持つ確率変数はありますか?
固定変数に対して、suppおよび確率変数を指定したと想像してくださいXXX(X)=(0,∞)(X)=(0,∞)(X)=(0,\infty)P(X∈(0,a))>0P(X∈(0,a))>0\mathbb P(X \in (0,a))>0a>0a>0a>0 iidのサンプル与えられた場合-X1,...,XnX1,...,XnX_1,...,X_n X(2)/X(1)→P1X(2)/X(1)→P1X^{(2)}/X^{(1)}\xrightarrow{\mathbb P}1 for、ここでは番目の最小要素を表しますか?n→∞n→∞n \to \inftyX(i)X(i)X^{(i)}iii
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.