タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

3
平均0および標準偏差1の分布が常に使用されるのはなぜですか?
私の統計は独学で学んだが、私が読んだ多くの資料は、平均が0で標準偏差が1のデータセットを指し示している。 その場合は: なぜ平均0とSD 1が良い特性なのですか? このサンプルから引き出されたランダム変数が0.5に等しいのはなぜですか?0.001を描画する可能性は0.5と同じであるため、これはフラットな分布になるはずです... 人々がZスコアについて話すとき、彼らは実際にここで何を意味しますか?

1
以下のための最も鋭い知ら尾の境界何である
ましょのカイ二乗分布するランダム変数であるk個の自由度。以下の確率の最もシャープな既知の境界は何ですかX∼χ2kX∼χk2X \sim \chi^2_kkkk P[X&gt;t]≤1−δ1(t,k)P[X&gt;t]≤1−δ1(t,k) \mathbb{P}[X > t] \leq 1 - \delta_1(t, k) そして P[X&lt;z]≤1−δ2(z,k)P[X&lt;z]≤1−δ2(z,k) \mathbb{P}[X < z] \leq 1 - \delta_2(z, k) ここで、及びδ 2は、いくつかの機能があります。関連する論文へのポインタをいただければ幸いです。δ1δ1\delta_1δ2δ2\delta_2

2
Wolfram Mathworldは、確率密度関数で離散確率分布を記述する間違いを犯しますか?
通常、離散変数にわたる確率分布は、確率質量関数(PMF)を使用して記述されます。 連続確率変数を使用する場合、確率質量関数ではなく確率密度関数(PDF)を使用して確率分布を記述します。 - ディープラーニンググッドフェロー、Bengio、およびCourvilleによって しかし、Wolfram MathworldはPDFを使用して、離散変数の確率分布を記述しています。 これは間違いですか?またはそれは大した問題ではありませんか?

2
分布の瞬間を使用して分布をサンプリングできますか?
統計/機械学習法では、分布はガウス分布で近似されることが多く、サンプリングにはガウス分布が使用されます。彼らは、ディストリビューションの最初の二つのモーメントを計算することによって開始し、推定するために、それらを使用μμ\mu及びσ2σ2\sigma^2。その後、彼らはそのガウスからサンプリングできます。 計算する瞬間が多いほど、サンプリングしたい分布を近似できるようになるはずです。 3つのモーメントを計算するとどうなりますか?それらを使用して分布からサンプリングできますか?そして、これをNモーメントに拡張できますか?

3
もし IIDであり、その後、計算、ここで、
質問 場合 IID、次いで計算され、ここで、。X 1、⋯ 、X N〜N(μ 、1 )X1,⋯,Xn∼N(μ,1)X_1,\cdots,X_n \sim \mathcal{N}(\mu, 1)E (X 1 | T )E(X1∣T)\mathbb{E}\left( X_1 \mid T \right) T = Σ I X IT=∑iXiT = \sum_i X_i 試行:以下が正しいかどうかを確認してください。 たとえば、 これは、X_1、\ ldots、X_nがIIDである、各ことを意味します。Σ I E(X I |T) =E(Σ I X I |T) =T。∑iE(Xi∣T)=E(∑iXi∣T)=T.\begin{align} \sum_i \mathbb{E}\left( X_i \mid T \right) = …

4
帰無仮説が真である確率
したがって、これはよくある質問かもしれませんが、満足のいく答えを見つけたことがありません。 帰無仮説が真(または偽)である確率をどのように決定しますか? 学生にテストの2つの異なるバージョンを与え、それらのバージョンが同等かどうかを確認したいとします。t検定を実行すると、p値が.02になります。なんて素敵なp値でしょう!つまり、テストが同等である可能性は低いということです。いいえ。残念ながら、P(results | null)はP(null | results)を伝えないようです。通常行うべきことは、低いp値に遭遇したときに帰無仮説を棄却することですが、どのようにして、真である可能性が高い帰無仮説を棄却していないことを知ることができますか?馬鹿げた例を挙げると、偽陽性率が.02のエボラのテストを設計できます。50個のボールをバケツに入れて、1個の「エボラ」を書き込みます。私がこれを使って誰かをテストし、彼らが「エボラ」ボールを選んだ場合、p値(P(ボールを選ぶ|エボラがない))は0.02です。 私がこれまで考えてきたこと: P(null | results)〜= P(results | null)と仮定すると、いくつかの重要なアプリケーションでは明らかにfalseです。 P(null | results)を知らずに仮説を受け入れるか拒否する–なぜそれらを受け入れるか拒否するのか?私たちが考えていることを偽りのように間違って拒否し、本当のことを本当に受け入れているという点ではありませんか? ベイズの定理を使用する-しかし、どのようにして事前分布を取得しますか?それらを実験的に決定しようとして同じ場所に戻ってしまいませんか?そして、それらをアプリオリに選ぶことは非常にarbitrary意的です。 stats.stackexchange.com/questions/231580/という非常に似た質問を見つけました。ここでの1つの答えは、基本的に、ベイズの質問であるため、帰無仮説が真である確率について尋ねるのは意味がないと言っているようです。たぶん私はベイジアンですから、その質問をしないのは想像できません。実際、p値の最も一般的な誤解は、それらが真の帰無仮説の確率であるということです。この質問を頻繁に行う人として本当に質問できない場合、私の主な質問は#3です。ループに巻き込まれずに、どのようにして優先順位を取得しますか。 編集:思慮深い返信をありがとうございます。いくつかの一般的なテーマに対処したいと思います。 確率の定義:これに関する多くの文献があると確信していますが、私の素朴な概念は、「完全に合理的な存在が情報を与えたという信念」や「状況が利益を最大化する賭けのオッズ」のようなものです繰り返され、未知のものは変化することを許された」。 P(H0 |結果)を知ることはできますか?確かに、これは難しい質問のようです。しかし、確率は常に与えられた情報を条件としているため、すべての確率は理論的には知っていると信じています。すべてのイベントは発生するか発生しないため、完全な情報では確率は存在しません。情報が不十分な場合にのみ存在するため、知っておく必要があります。たとえば、誰かがコインを持っていると言われ、ヘッドの確率を尋ねられたら、50%と言います。コインの頭に70%の重みが付けられている場合がありますが、その情報が与えられなかったので、私が持っていた情報の確率は50%でした。私がそれを学んだときに頭に。確率は常に(不十分な)データのセットを条件としているため、 編集:「常に」は少し強すぎるかもしれません。確率を決定できない哲学的な質問があるかもしれません。それでも、実際の状況では、「ほぼ決して」絶対的な確実性を持つことはできませんが、「ほぼ常に」最良の推定値があるはずです。

2
Palantirのアジア差別事件:確率はどのように計算されましたか?
労働省がアジア人に対する差別で彼らを非難しているパランティールの事例について、私はこの記事を読みました。誰がどこからこれらの確率推定値を取得したか知っていますか? 項目(a)で1/741が得られません。 (a)QAエンジニアポジションでは、730人以上の適格な応募者のプール(約77%がアジア人)から、Palantirは6人の非アジア人応募者と1人のアジア人応募者のみを採用しました。OFCCPによって計算された悪影響は、3つの標準偏差を超えています。この結果が偶然に発生した可能性は、741分の1です。 (b)ソフトウェアエンジニアの立場では、1,160人を超える適格な応募者(約85%がアジア人)のプールから、Palantirはアジア以外の応募者14人とアジアの応募者11人のみを採用しました。OFCCPによって計算された悪影響は、5標準偏差を超えています。この結果が偶然に発生した可能性は、340万分の1です。 (c)QAエンジニアのインターンポジションでは、130人を超える適格な応募者のプール(約73%がアジア人)から、Palantirは17人のアジア人以外の応募者と4人のアジア人応募者を採用しました。OFCCPによって計算された悪影響は、6標準偏差を超えています。この結果が偶然に発生した可能性は、およそ10億分の1です。

3
ガウス混合の使用を正当化する参照
ガウス混合モデル(GMM)は、分析的にも実際的にも簡単に使用でき、あまり複雑ではないいくつかのエキゾチックな分布をモデル化できるため、魅力的です。一般に明確ではないいくつかの分析プロパティを保持する必要があります。特に: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? 我々は連続分布持っていると言う、我々は発見した -componentガウス混合近くにある全変動で:。私たちは、バインドすることができますという点で?PPPP P δ (P 、P)&lt; ε D (P | | P)εNNNP^P^\hat{P}PPPδ(P,P^)&lt;εδ(P,P^)&lt;ε\delta(P,\hat{P})<\varepsilonD(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon 独立した加法性ノイズY \ sim P_Y(実数、連続の両方)を通じてX \ sim P_Xを観察したい場合、GMM \ hat {X} \ sim Q_X、\ hat {Y} \ sim Q_N where \ delta(P 、Q)&lt;\ epsilon、この値は小さい:\ left | \ mathsf {mmse}(X | X + Y)-\ mathsf …

3
なぜそれらの合計が1を超えるために必要な(0,1)上の連続した均一変数の数は平均
ランダム変数のストリーム合計してみましょう。聞かせて私たちが1を超え、合計のために必要な用語の数である、すなわち、このような最小の数ですX I I I D 〜 U(0 、1 )Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1)Y YYYYY X 1 + X 2 + ⋯ + X Y &gt; 1。X1+X2+⋯+XY&gt;1.X_1 + X_2 + \dots + X_Y > 1. の平均がオイラーの定数と等しいのはなぜですか?Y YYEee E(Y )= e = 10 !+11 !+12 !+13 !+…E(Y)=e=10!+11!+12!+13!+…\mathbb{E}(Y) = e = \frac{1}{0!} + \frac{1}{1!} + …

1
同じ平均、異なる分散
8人のランナーがレースを実行しているとします。個々の実行時間の分布は正規であり、それぞれの平均はたとえば秒です。ランナー1の標準偏差は最も小さく、2番目が2番目に小さく、3番目が最も小さく、8個が最も大きくなります。2つの質問が私を混乱させています。(1)最初が最後に勝つ確率は何ですか?(2)レースに勝つ可能性が最も高いのは誰ですか?111111 私の答えはそれぞれとです。それらは同じ平均を共有しているため、がちょうどである確率はありませんか?どうすれば2番目の部分を厳密に実証できますか?また、勝ちの正確な確率を計算できますか?前もって感謝します。8 ˉ X 1 - ˉ X 8 &lt; 0 1 / 21/21/21/2888x¯1−x¯8&lt;0x¯1−x¯8&lt;0\bar x_1-\bar x_8\lt 01/21/21/2

4
審査員選考のバイアス?
友人は、ju審員の選択が人種的に偏っているように見える刑事裁判の後、控訴でクライアントを代表しています。 ju審員プールは、4人種グループの30人で構成されていました。検察は、これらの人々のうち10人をプールから排除するために、強引な挑戦を使用しました。各人種グループの人数と実際の課題の数は、それぞれ次のとおりです。 A: 10, 1 B: 10, 4 C: 6, 4 D: 4, 1 total: 30 in pool, 10 challenges 被告は人種グループCからであり、被害者は人種グループAおよびDからでした。したがって、先験的な懸念は、グループCが過負荷で、グループAおよびDが過負荷であるかどうかです。法的には(IIUC; IANAL)、弁護側は人種的偏見を証明する必要はなく、単にデータが偏見を示しているように見えることを示すだけで、検察に各人種的問題を非人種的に説明する負担をかけるだけです。 次の分析はそのアプローチにおいて正しいですか?(計算は問題ないと思います。): nCr(30,10)= 30,045,015個の10個のプールメンバーの個別のセットがあります。これらの明確なセットのうち、433,377セットには(グループAとDの2つ以下のメンバーを合わせた)と(グループCの4つ以上のメンバー)の両方が含まれるとカウントします。 したがって、グループCよりもグループAとDを優先する見かけのバイアスの観測レベルに達する可能性(10のチャレンジのセットに含まれない優先手段)は、これらの比率、433/30045 = 1.44%になります。 したがって、帰無仮説(そのようなバイアスはありません)は5%の有意水準で拒否されます。 この分析が方法論的に正しい場合、学術的/専門的な参考文献(ウィキペディアではない)を含めて、裁判所に説明する最も簡潔な方法は何でしょうか?議論は単純に思えますが、どうしてそれが正しいのであって、シェナンガンではないことを法廷に最も明確かつ簡潔に証明できるでしょうか? 更新:この質問は、控訴ブリーフの第三の議論として検討中だった。ここでの議論の技術的な複雑さ(弁護士の観点から)と法的な先例の明らかな欠如を考えると、弁護士はそれを提起しないことを選択したので、この時点で問題はほとんど理論的/教育的です。 1つの詳細に答えるには、課題の数である10は事前に設定されていると思います。 思慮深く、やりがいのある答えとコメント(ありがとう、すべて!)を研究した後、ここには4つの別個の問題があるようです。少なくとも、私にとっては、それらを個別に検討すること(または分離できない理由についての議論を聞くこと)が最も役立ちます。 1)ジュリープールの課題における、被告人と被害者の両方の人種の考慮は、法的な懸念であるか?上訴の議論の目的は、合理的な懸念を提起することだけであり、これにより、検察が個々の異議申し立ての理由を述べるという司法命令につながる可能性がある。これは私には統計的な問題ではなく、社会的/法的問題であるように思われます。これは弁護士の裁量によるものです。 2)(1)を仮定して、対立仮説(定​​性的には、被告の人種を共有するju審員に対するバイアス、犠牲者の人種を共有する人を支持する)の選択はもっともらしいか、それは容認できない事後ですか?私の平凡な観点から、これは最も困惑する質問です-はい、もちろん、それを観察しなければ、それを提起しません!私が理解しているように、問題は選択バイアスです:テストでは、このju審員プールだけでなく、そのようなすべてのall審員プールの宇宙を考慮する必要があります。これには、防衛が矛盾を観察せず、したがって問題を提起しようとしないすべてのもの。これにどのように対処しますか?(たとえば、Andyのテストはどのようにこれに対処しますか?)これについては間違っているかもしれませんが、ほとんどの回答者は潜在的に事後的に悩まされていないようです被告のグループのみに対するバイアスの片側検定。(1)を仮定して、被害者グループのバイアスを同時にテストすることは、方法論的にどのように異なりますか? 3)(2)で述べた定性的対立仮説の選択を規定する場合、それをテストするための適切な統計量は何ですか?私が提案する比率は、より単純な「Cに対するバイアス」代替仮説に対するAndyの検定の控えめな類似であるように見えるため、ここで私は応答に最も困惑しています(私の検定もすべてのケースをさらにカウントするため、より保守的です)正確に観察されたカウントだけでなく、テールでも) 両方のテストは、同じ分母(サンプルの同じ宇宙)を持ち、分子がそれぞれの対立仮説に対応するサンプルの頻度に正確に対応する単純なカウントテストです。だから@whuber、なぜアンディのように「規定のヌル[同じ]および代替[記述]仮説に基づいて、Neyman-Pearsonの補題を使用して正当化できる」という私のカウントテストと同じではないのですか? 4)(2)と(3)を規定する場合、懐疑的な控訴裁判所を納得させる判例法の参照はありますか?証拠から現在まで、おそらくそうではありません。また、このアピールの段階では、「専門家証人」の機会はないので、参照がすべてです。

3
経験的確率密度間の重複を計算する方法は?
2つのサンプル間の類似性の尺度として、Rの2つのカーネル密度推定値間のオーバーラップ領域を計算する方法を探しています。明確にするために、次の例では、紫がかった重複領域の面積を定量化する必要があります。 library(ggplot2) set.seed(1234) d &lt;- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) 同様の質問がここで議論されました。違いは、事前定義された正規分布ではなく、任意の経験的データに対してこれを行う必要があることです。overlapパッケージアドレスこの質問が、どうやら私だけのために動作しないタイムスタンプデータ、のために。Bray-Curtisインデックス(veganパッケージのvegdist(method="bray")関数に実装されている)も関連しているように見えますが、やはりデータが多少異なります。 理論的なアプローチと、それを実装するために使用する可能性のあるR関数の両方に興味があります。

2
二乗正規変数とカイ二乗変数の畳み込みの分布?
最近、データの分析中に次の問題が発生しました。確率変数Xが正規分布に従い、Yが分布(n dof)に従う場合、はどのように分布しますか?これまで PDFを思いついた: Z = X 2 + Y 2 Y 2 ψ 2 N(X )χ2nχn2\chi^2_nZ=X2+Y2Z=X2+Y2Z = X^2 + Y^2Y2Y2Y^2ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} \cdot …

4
MCMCの実用的な例
MCMCに関連するいくつかの講義を受けていました。ただし、使用方法の良い例は見つかりません。誰でも私に具体的な例を与えることができます。私が見ることができるのは、それらがマルコフ連鎖を実行し、その定常分布が望ましい分布であると言うことです。 希望する分布をサンプリングするのが難しい良い例が欲しいです。そこで、マルコフ連鎖を作成します。マルコフ連鎖の定常分布がターゲット分布になるように遷移行列を選択する方法を知りたい

2
正規分布の特定の値の確率がゼロになるのはなぜですか?
正規分布では、確率はゼロに等しく、ポアソン分布では、cが非負の整数の場合、ゼロに等しくないことに気付きました。P(x=c)P(x=c)P(x=c)ccc 私の質問は次のとおりです。正規分布の定数の確率は、曲線の下の面積を表すためゼロに等しいのでしょうか?それとも、記憶するのは単なるルールですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.