同じ平均、異なる分散


14

8人のランナーがレースを実行しているとします。個々の実行時間の分布は正規であり、それぞれの平均はたとえば秒です。ランナー1の標準偏差は最も小さく、2番目が2番目に小さく、3番目が最も小さく、8個が最も大きくなります。2つの質問が私を混乱させています。(1)最初が最後に勝つ確率は何ですか?(2)レースに勝つ可能性が最も高いのは誰ですか?11

私の答えはそれぞれとです。それらは同じ平均を共有しているため、がちょうどである確率はありませんか?どうすれば2番目の部分を厳密に実証できますか?また、勝ちの正確な確率を計算できますか?前もって感謝します。8 ˉ X 1 - ˉ X 8 < 0 1 / 21/28x¯1x¯8<01/2


1
@Silverfish最初(ランダム変数としてモデル化された)と最後(、独立していると仮定)を比較するとき、のみを考慮する必要があります。これには、平均がゼロの対称連続分布があります。その最初のビートが最後のチャンスは、可能性あるに等しい(対称性と連続性によって)、記載の方法。ラストはレースに勝つ可能性が高くなりますが、矛盾はありません。ほとんどの場合、最初のビートが最後になると、他の誰かが実際にレースに勝ちます。X nはX 1つの Z = X 1 - X N Z < 0 1 / 2X1XnX1Z=X1XnZ<01/2
whuber

1
@whuberありがとう、私は何を意味するか分からない-混乱を防ぐために削除します。1/2の数字は正しいですが、平均時間を比較する答えは間違っており、母集団の平均との混乱を招くようです。あなたが書いているように、それは違いであるべきです。 XIxi¯Xi
シルバーフィッシュ

@Silverこれは、見慣れているからといって、誰かの表記が何を意味するのかを常に知っていると仮定する危険性を強調しています。意図した意味が十分に明確であり、どちらも何かの平均を表すことができないことを暗示しているため、私はその問題をました(「」と「」に上線が表示されます):このコンテキストで、ランダム変数を表す必要がありますそれ自体(私はとを書いた)。x 8x1x8X nX1Xn
whuber

回答:


15

正確な確率を計算することはできませんが(特別な状況を除きます)、数値的にすばやく正確に計算できます。この制限にもかかわらず、標準偏差が最大のランナーが勝つ可能性が最も高いことを厳密に証明できます。図は状況を示し、この結果が直感的に明らかな理由を示しています。n2

図

5人のランナーの時間の確率密度が表示されます。すべては共通の平均に関して連続的で対称的です。(すべての時間が正の値になるように、スケーリングされたベータ密度が使用されました。)濃い青で描かれた1つの密度は、より大きな広がりを持っています。左尾の可視部分は、他のランナーが通常は一致できない時間を表します。比較的大きな面積を持つ左テールはかなりの確率を表しているため、この密度のランナーがレースに勝つ可能性が最も高くなります。(彼らは最後に来る最大のチャンスもあります!)μ

これらの結果は、正規分布だけでなく証明されています。ここで紹介する方法は、対称連続的分布にも同様に適用されます (これは、実行時間をモデル化するために正規分布を使用することに反対する人にとって興味深いものです。)これらの仮定に違反すると、最大の標準偏差を持つランナーが勝つ可能性が最も高くない可能性があります(反例の構築はただし、SDが十分に大きければ、SDが最大のランナーが勝つ可能性が最も高いという穏やかな仮定の下で証明できます。

この図は、片側のみへの分布の分散を測定する標準偏差の片側アナログ(いわゆる「セミバリアンス」)を検討することでも同じ結果が得られることを示唆しています。左側に大きく分散している(より良い時間に向かって)ランナーは、ディストリビューションの残りの部分で何が起こっているかに関係なく、勝つ可能性が高くなるはずです。これらの考慮事項は、(グループ内で)最高であることの特性が、平均などの他の特性とどのように異なるかを理解するのに役立ちます。


ましょランナー時間を表すランダム変数です。問題は、それらが独立しており、共通の平均μで正規分布していることを前提としています。(これは文字通り不可能なモデルですが、負の時間の正の確率を仮定しますが、標準偏差が実質的にμより小さい場合、現実の合理的な近似になります。)X1,,Xnμμ

以下の議論を実行するために、独立性の仮定を保持しますが、そうでなければ、分布はF iによって与えられ、これらの分布法則は何でもあり得ると仮定します。 便宜上、分布F nが密度f nで連続していると仮定します。後で、必要に応じて、正規分布のケースが含まれている場合は、追加の仮定を適用できます。XiFiFnfn

任意のyおよび無限小のdyについて、最後のランナーが間隔内の時間(ydy,y]持ち、すべての関連する確率を乗算することによって得られる(すべての時間は独立しているため)チャンス:

Pr(Xn(ydy,y],X1>y,,Xn1>y)=fn(y)dy(1F1(y))(1Fn1(y)).

これらの相互に排他的な可能性をすべて統合することにより、

Pr(Xnmin(X1,X2,,Xn1))=Rfn(y)(1F1(y))(1Fn1(y))dy.

正規分布の場合、場合、この積分は閉じた形で評価できません。数値評価が必要です。n>2

Figure

この図は、標準偏差が1:2:3:4:5の比率である5人のランナーそれぞれの被積分関数をプロットしています。SDが大きいほど、関数はより左にシフトされ、その面積が大きくなります。面積は約8:14:21:26:31%です。特に、最大のSDを持つランナーは31%の確率で勝ちます。


閉じたフォームは見つかりませんが、確固たる結論を導き出し、SDが最大のランナーが勝つ可能性が最も高いことを証明できます。などの 分布の標準偏差が変化するとどうなるかを調べる必要があります。ランダム変数X nがその平均を中心にσ > 0で再スケーリングされると、そのSDにσが乗算され、f ny d yf ny / σ d y / σに変化しますFnXnσ>0σfn(y)dyfn(y/σ)dy/σ。変数の変更を作るの積分では、ランナーのチャンスのために表現できますn個の関数として、勝利をσy=xσnσ

ϕ(σ)=Rfn(y)(1F1(yσ))(1Fn1(yσ))dy.

ここで、すべてのn分布の中央値が等しく、すべての分布が対称で連続しており、密度がf iであるとします。(これは、質問の条件下では確かに当てはまります。なぜなら、標準の中央値はその平均値だからです。)変数の単純な(位置)変化により、この共通の中央値は0であると仮定できます。対称性とは、f ny = f ny および1 F jy = F jynfi0fn(y)=fn(y)すべての yに対して。これらの関係は不可欠オーバーを結合するために私達を可能にする- 0 ]の積分を超えると0 与えます1Fj(y)=Fj(y)y(,0](0,)

ϕ(σ)=0fn(y)(j=1n1(1Fj(yσ))+j=1n1Fj(yσ))dy.

関数微分可能です。被積分関数を微分することにより得られるその導関数は、各項が次の形式の積分の合計です。ϕ

yfn(y)fi(yσ)(jin1Fj(yσ)jin1(1Fj(yσ)))

以下のためにi=1,2,,n1

私たちは、ディストリビューションについて行われた仮定は、それを確実にするために設計されたのためのx 0。以降このように、X = Y σ 0、左製品における各用語が適切な製品で、その対応する用語を超え、製品の違いを意味することは非負です。他の要因Y F NY F IY σは密度が負であることができないので、明らかに非負であり、そしてFj(x)1Fj(x)x0x=yσ0yfn(y)fi(yσ)。我々は結論付けることができる φを'σ 0のための σ 0、証明そのチャンスそのプレイヤー Nの標準偏差が勝利増加 X nがy0ϕ(σ)0σ0nXn

これは、X nの標準偏差が十分に大きければ、ランナーが勝つことを証明するのに十分です。これは、SDが大きいと物理的に非現実的なモデルになる可能性があるため、あまり満足のいくものではありません(負の勝利時間にはかなりのチャンスがある場合)。しかし、すべての分布が標準偏差を除いて同一の形状を持っていると仮定します。彼らはすべて同じSDを持っている場合この場合、Xは、私は独立しており、同一分布:誰が誰よりも大きいか、勝利の低いチャンスを持つことはできませんので、すべてのチャンスは(に等しい1 / N)。すべての分布をランナーnの分布に設定することから始めますnXnXi1/nn。次に、他のすべてのランナーのSDを1つずつ徐々に減らします。これが発生すると、勝つ可能性は減少できませんが、他のすべてのランナーの可能性は減少します。その結果、nが勝つ可能性が最も高くなります(QED)nn


@フォノンそうですね。(ただし、分布をサンプルから得られた推定値と混同しないでください。分布は数学的なモデルであり、データのセットではありません。)SDを倍に増加すると、水平軸が均一に引き伸ばされます。(総確率の法則により)密度関数は単位面積をカバーするため、そのストレッチは垂直軸の1 / λのストレッチによって補正されなければならず、それによりすべての面積が維持されます。したがって、小さいSDは高いピークに対応し、大きいSDは短いピークに対応します。λ1/λ
whuber

Many thanks for your reply, makes perfect sense. So knowledge of peak values alone in this sense is rather important.
Phonon
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.