小さな確率と大きなサンプルで計算する方法は?


8

大きなサンプルで1回発生する可能性が非常に低い確率、つまり確率がマシンエラーよりも小さい状況で、確率を計算または概算することはできますか?

たとえば、誰かが私のゲノムを共有するおおよその可能性を計算しようとしていました。どうやら、個々のゲノムはロスレスで約4MB(2 ^ 25ビット)に圧縮できます。したがって、地球上の約70億人の人間が私のゲノムを共有する可能性は、およそ次のとおりです。

(112225)(7×109)

または、誕生日問題の方法を使用して、同一のゲノムを持つ双子が少なくとも2人いる可能性(双子を無視するなど)は次のようなものです。

(7×109)!(22257×109)(2225)(7×109)

ここでの問題は、数値が非常に小さいかまたは非常に大きいため、それらがどこにあるかを大まかに推測することが不可能であることです。それで、これらまたは同様の計算を概算する方法はありますか?

場合によっては、問題の背後にある仮定が何桁も外れていることもありますが、「そうである可能性が高い」に近似できることさえ興味深いでしょう。


2
そのような状況では対数が適切であり、十分でない場合は、スターリング近似により、実際の値に十分に近づいて量の大きさを評価できます。
西安

回答:


8

物理学では、フェルミ問題は、1桁の大きさを推定するように求める演習です。確率についても同じことができます。練習すれば、あなたの直感は向上するはずです。

西安がコメントしたように、対数を使用できます。たぶん、は一見できないかもしれませんが、(または)であることがわかります。それはそれを意味します。 222510102251010log21033

複雑な数式を使用して不要な正確な値を計算する代わりに、計算が簡単な推定値を使用します。たとえば、あなたのゲノム(双子を除く)を持つ他の人が少なくとも1人いる確率は、同じゲノムを持つ単純な積最大で予想される人数ですこれは非常に小さく見積もることができるはずです。同様に、一部の人々のペアが同じゲノムを持っている確率は、多くても同じゲノムを持っている人々の予想されるペアの数です。12225(7×109)

12(7×109)22225

ちなみに、私はこのゲノムの確率モデルを受け入れません。例としてあなたのモデルを使用しました。このモデルは、兄弟間で通常見られる遺伝的類似性が天文学的にありそうもないことを予測します。


ええ、私はモデルが間違っていることを知っています。しかし、非双子の兄弟が..私は本当にあなたが兄弟間の遺伝的類似性によって何を意味するかじゃないので、それらの遺伝子の約半分(わきすべての人間へのものと共通するから)のみ可能性が共有にある
naught101

ゲノムは圧縮されているはずなので、「約半分」とはどういう意味かわかりません。選択肢が場所と以上ある場所があります。とにかく、彼らが同じ親の染色体のコピーを持たない場所は偶然とにかく同じであるかもしれないので、彼らの遺伝子の半分以上が同じであるべきであり、そしてあなたが各ゲノムがランダムであると偽るなら、あなたは推定するでしょうこの可能性は天文学的に低いということです。さらに、交差がないと仮定します。その後、兄弟は同じゲノムを持つためにコインフリップを獲得する必要があるだけで、ではありません。2246225
ダグラスザレ2012

おもしろいものですが、これはすべて私の質問にかなり正接しています。このため、私の過度に単純化したモデルは基本的な例にすぎません。あなたは遺伝学の議論を続けるように感じる場合は、我々はチャットルームでそれを行うことができ...
naught101

1
これはすべて基本的な資料です。モデルが悪いことを指摘せずに、このモデル内の計算を表示したくありませんでした。
ダグラスザレ2012

3

これは、極端な値で観測される値のいずれかまたはほんの少数を取得するために必要な極端に大きなサンプルサイズなしで、確率分布の極端なテールを推定する問題に相当すると思います。これを行う唯一の方法は、分布の裾の形状を「自動的に」想定するパラメトリックモデルを想定することです。しかし、確率モデルの根拠がある場合は、パラメトリックファミリーから密度をフィッティングし、それを使用してテール領域を統合してその小さな確率を推定することにより、求める推定を得ることができます。パラメトリックな仮定が間違っている場合、推定値が(桁違いに)ずれる可能性があります。


いいです、私はそのようにそれを考えていませんでした。しかし、この種の問題にどのようなモデルを使用するかわかりません。
naught101 2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.