タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

2
統計、演習(ソリューションを含む)を学習するためのオンラインリソースですか?
私は現在、大学の指導助手として統計入門コース(医学生向け)で働いています。 オフラインでは、教師を支援するための情報を提供する多くの本があります。しかし、私が知りたいのは、オンラインで利用可能な統計の演習(ソリューションを含む)を提供する(良い)リソースに私を導くことができるかどうかです。(例:教師のメモ)。 主題の資料は、記述統計、確率、およびパラメトリック/ノンパラメトリック統計推論の間で変動します。

1
バイナリ分類設定の精度は不適切なスコアリングルールですか?
私は最近、確率的分類器の適切なスコアリングルールについて学んでいます。このWebサイトのいくつかのスレッドは、精度が不適切なスコアリングルールであり、ロジスティック回帰などの確率モデルによって生成された予測の品質を評価するために使用すべきではないことを強調しています。 ただし、私が読んだかなりの数の学術論文では、バイナリ分類設定における(厳密ではない)適切なスコアリングルールの例として、誤分類の損失を挙げています。私が見つけた最も明確な説明は、7ページの下部にあるこのペーパーにありました。私の理解では、誤分類損失を最小化することは、精度を最大化することに相当します。 たとえば、論文の表記を使用して、対象クラスの真の条件付き確率(ある特徴ベクトルxが与えられた)がη= 0.7の場合、予測q > 0.5の場合、予想損失R(η| q)= 0.7(0)+ 0.3(1)= 0.3、およびq≤0.5の ≤≤\leq、予想損失は0.7です。したがって、損失関数はq =η= 0.7 で最小化され、結果として適切になります。真の条件付き確率と予測の全範囲への一般化は、そこから十分簡単に​​思えます。 上記の計算とステートメントが正しいと仮定すると、一意でない最小値と、同じ最小予測損失を共有する0.5を超えるすべての予測の欠点は明らかです。ログスコア、ブライアースコアなどの従来の代替案に対して精度を使用する理由はまだありません。しかし、バイナリ設定で確率モデルを評価する場合、精度が適切なスコアリングルールであると言うのは正しいですか。間違い-誤分類の損失を理解するのか、それとも正確に分類するのか。

11
標準偏差は完全に間違っていますか?どのように高さ、カウントなどの正の数値を計算できますか?
高さ(cm)を計算していて、数値はゼロよりも大きくなければならないとします。 サンプルリストを次に示します。 0.77132064 0.02075195 0.63364823 0.74880388 0.49850701 0.22479665 0.19806286 0.76053071 0.16911084 0.08833981 Mean: 0.41138725956196015 Std: 0.2860541519582141 この例では、正規分布に従って、値の99.7%が平均からの標準偏差の±3倍の間にある必要があります。ただし、標準偏差の2倍でも負になります。 -2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468 しかし、私の数字は正でなければなりません。負の数は無視できますが、これが標準偏差を使用して確率を計算する正しい方法だとは思いません。 これを正しい方法で使用しているかどうかを誰かが理解するのを助けることができますか?または、別の方法を選択する必要がありますか? 正直言って、数学は数学です。正規分布であるかどうかは関係ありません。符号なしの数値で動作する場合、正の数値でも動作するはずです!私が間違っている? EDIT1:ヒストグラムを追加しました より明確にするために、実際のデータのヒストグラムを追加しました EDIT2:いくつかの値 Mean: 0.007041500928135767 Percentile 50: 0.0052000000000000934 Percentile 90: 0.015500000000000047 Std: 0.0063790857035425025 Var: 4.06873389299246e-05

2
共分散関数またはカーネル-正確には何ですか?
私はガウス過程の分野と、それらが機械学習にどのように適用されているかについてかなり新しいです。私はこれらの方法の主な魅力である共分散関数について読み続けています。だから誰もがこれらの共分散関数で何が起こっているのか直感的に説明できますか? それ以外の場合、特定のチュートリアルまたはそれらを説明するドキュメントを指摘できる場合。

1
カイ2乗検定とカイ2乗分布の理解
私はカイ二乗検定の背後にある論理を理解しようとしています。 カイ2乗検定は。χ2は、その後、帰無仮説を棄却かないためにp.valueを見つけるためにカイ二乗分布と比較されます。H0:観測値は、期待値の作成に使用した分布から取得されます。たとえば、取得の確率が予想どおりpで与えられるかどうかをテストできます。したがって、100回反転し、nHと1−nHを見つけます。我々は(期待されているものに我々の発見を比較したい100⋅P)。二項分布を使用することもできますが、それは問題のポイントではありません…問題は次のとおりです。χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p あなたはなぜ、帰無仮説の下で、説明していただけますはカイ二乗分布に従いますか?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} カイ2乗分布について知っているのは、次のカイ2乗分布がkの標準正規分布の2乗の合計であることだけです。kkkkkk

2
n回のトスからk個のヘッドを観察します。コインは公正ですか?
私はインタビューでこの質問をされました。「正しい」答えはありますか?(n,k)=(400,220)(n,k)=(400,220)(n, k) = (400, 220) トスがiidで、ヘッドの確率がと仮定します。その場合、400回のトスでの頭の数の分布はNormal(200、10 ^ 2)に近く、220頭は平均から2標準偏差離れています。そのような結果を観察する確率(つまり、どちらの方向でも平均から2 SD離れている)は、5%未満です。p=0.5p=0.5p=0.5 インタビュアーは、本質的に、「平均値から2 SD以上を観察した場合、何か他のことが起こっていると結論付けます。コインが公正であることに賭けます」と言った。それは理にかなっています-結局のところ、それはほとんどの仮説テストが行​​うことです。しかし、それで話は終わりですか?「正解」と思われるインタビュアーにとって。ここで質問しているのは、ニュアンスが正当化されるかどうかです。 このコイン投げの文脈では、コインが公平ではないと判断することは奇妙な結論であると指摘するしかありませんでした。私はそれを言う権利がありますか?以下で説明します。 まず第一に、私は-そして私はほとんどの人も-コインについて強い優先順位を持っていると思います:彼らは公平である可能性が非常に高いです。もちろん、それは公正という意味によって異なります。1つの可能性は、「公正」を「頭が0.5に「近い」、たとえば0.49から0.51の確率を持つ」と定義することです。 (また、完全に公正なコインは今むしろ思われる場合持つには、ヘッドの確率は正確に0.50であることを意味するものとして「公正」を定義することができ、未そう。) 事前の判断は、コインに関する一般的な信念だけでなく、コンテキストにも依存する可能性があります。自分のポケットからコインを引き出した場合、それが公正であることを事実上確信するかもしれません。あなたの魔術師の友人が彼からそれを引き出した場合、あなたの先輩は双頭コインにもっと重みを置くかもしれません。 いずれにせよ、(i)コインが公正である可能性を高くし、(ii)220の頭部を観察した後でも、後部を非常によく似たものにする合理的な優先順位を簡単に思い付きます。次に、平均から2 SDの結果を観察したにもかかわらず、コインは非常に公平である可能性が高いと結論付けます。 実際、たとえば、すべての不公平なコインがある可能性がある場合、400回のトスで220のヘッドを観察することで、後部がより公平なコインに重みを置く例を構築することもできます。{0,1}{0,1}\{0, 1\} 誰かが私のためにこれにいくらか光を当てることができますか? この質問を書いた後、私は以前にこの一般的な状況について聞いたことがあることを思い出しました-それはリンドリーの「パラドックス」ではありませんか? Whuberはコメントに非常に興味深いリンクを追加しました。ダイをロードできますが、コインをバイアスできません。3ページ目から: コインが頭の確率pを持っていると言うのは意味がありません。なぜなら、コインは投げられる方法によって完全に決定できるからです。バウンスなし。この場合、p = 1/2。 かなりクール!これは興味深い方法で私の質問と結びついています。コインが「空中に素早く回転して投げ込まれ、跳ね返ることなく空中に閉じ込められている」ことがわかっているとします。それから、コインが公正であるという仮説を絶対に拒否すべきではありません(ここで、「公正」とは、上記の方法で投げたときにp = 1/2を意味することを意味します)。コインは公平です。220のヘッドが観察された後、nullを拒否するのが不快な理由はある程度正当化されるかもしれません。

2
2つの従属多変量正規確率変数の線形結合
我々は確率変数の二つのベクトルを持って、両方とも正常である、すなわち、想定X∼N(μX,ΣX)X∼N(μX,ΣX)X \sim N(\mu_X, \Sigma_X)とY∼N(μY,ΣY)Y∼N(μY,ΣY)Y \sim N(\mu_Y, \Sigma_Y)。線形結合の分布に興味があります。Z=AX+BY+CZ=AX+BY+CZ = A X + B Y + Cここで、AAAとBBBは行列、CCCはベクトルです。場合XXXとYYY独立しており、Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z \sim N(A \mu_X + B \mu_Y + C, A \Sigma_X A^T + B \Sigma_Y B^T)。質問は依存関係にあり、任意のペアの相関がわかっていると仮定し(Xi,Yi)(Xi,Yi)(X_i, Y_i)ます。ありがとうございました。 よろしくお願いします、イヴァン

3
確率分布について初心者向けの本の推奨事項
私は機械学習を勉強していて、開いた本はすべて、カイ2乗分布、ガンマ関数、t分布、ガウス分布などに出会います。 これまでに開いたすべての本は、分布が何であるかを定義しているだけです。それらは、関数の特定の式がどこから来ているのかを説明したり、直感を与えたりしません。 たとえば、なぜカイ二乗分布が現状のままであるのでしょうか。T分布とは何ですか?ディストリビューションの背後にある直感は何ですか?証拠?等 最も一般的に使用される分布について明確かつ基本的な理解を持ちたいので、後でそれらを見るたびに、t分布とは何か、ガウス分布とは何か、そして最も重要なのはなぜそれらがそのようになるのかを本当に理解するためです彼らです。 本/チュートリアルが素人に概念を説明できて、それらを理解するためにあなたがすでにそれらを理解する必要がないようになっているとよいでしょうx)多くの本はこのようなものであり、初心者には適していません:(

1
「絶対連続確率変数」対「連続確率変数」?
バレンティンV.ペトロフの著書「確率論の限界定理」では、次のように「連続」と「絶対連続」の分布の定義が区別されています。 X P (X ∈ B ) = 0 B P (X ∈ B ) = 0 B(∗)(∗)(*) 「... 実線の点の有限または可算集合について場合、確率変数の分布は連続的であるといいます。場合、ルベーグメジャーゼロのすべてのボレル集合がゼロの場合、完全に連続する... "XXXP(X∈B)=0P(X∈B)=0P\left(X \in B\right)=0BBBP(X∈B)=0P(X∈B)=0P\left(X \in B\right)=0BBB 私が精通しているコンセプトは: (#)(#)(\#) 「確率変数に連続累積分布関数がある場合、それは完全に連続です。」 (∗ )(#)My questions are:My questions are:\textbf{My questions are:}同じことについてと「絶対連続性」についての2つの説明ですか?はいの場合、1つの説明を別の説明にどのように変換できますか?(∗)(∗)(*)(#)(#)(\#) ありがとうございました!

3
が連続変数の場合、
連続変数ことは知っています。P[ X= x ] = 0P[X=x]=0P[X=x]=0 しかし、場合、可能なxの数が無限にあることを視覚化することはできません。また、なぜそれらの確率が無限に小さくなるのですか?P[ X= x ] = 0P[X=x]=0P[X=x]=0バツxx

1
Halmos-Savage定理の直感的な理解
Halmos-サベージ定理が優勢統計モデルのことを言う(Ω 、A、P)(Ω,A,P)(\Omega, \mathscr A, \mathscr P)統計量T :(Ω 、A、P)→ (Ω '、A ')T:(Ω,A,P)→(Ω′,A′)T: (\Omega, \mathscr A, \mathscr P)\to(\Omega', \mathscr A')で十分であるすべてのための(及び場合のみ)であれば{ P ∈ P }{P∈P}\{P \in \mathscr{P} \} が存在するTTTラドンNikodym誘導体の-measurableバージョンのD PがDのPは、*dPdP∗\frac{dP}{dP*}ここで、DP*はdP∗dP*、特権尺度であるように、Pは*=Σは ∞ iは= 1 PICIをP∗=∑∞i=1PiciP*=\sum_{i=1}^\infty P_i c_i するためのCI>0、Σは ∞ iが= 1、Ciは=1ci>0,∑∞i=1ci=1c_i >0, \sum _{i=1}^\infty c_i =1とPI∈PをPi∈PP_i \in \mathscr P。 定理が真である理由を直感的に把握しようとしましたが、成功しませんでしたので、定理を理解する直感的な方法があるかどうかが私の質問です。

3
バートランドのボックスパラドックスのモンテカルロシミュレーションをプログラムする方法は?
次の問題がメンサインターナショナルのFacebookページに投稿されました。 \quad\quad\quad\quad\quad\quad\quad\quad 投稿自体には1000件以上のコメントが寄せられましたが、ここでの議論については詳しく説明しません。これはバートランドの箱のパラドックスであり、答えは。ここで私が興味を持っているのは、モンテカルロ法を使用してこの問題にどのように答えるかです。この問題を解決するアルゴリズムはどのようになっていますか?2323\frac23 私の試みは次のとおりです。 0から1までの均一に分布した乱数を生成します。NNN000111 ボックスのイベントに、半分未満に選択された2つの金のボール(ボックス1)が含まれているとします。 未満の数値をカウントし、結果をSとして呼び出します。0.50.50.5SSS ボックス1が選択されている場合はゴールドボールを取得するのは確実であり、ボックス2が選択されている場合はゴールドボールを取得する可能性は50%だけなので、シーケンスGGを取得する確率は P(B 2 = G | B 1 = G )= SS+ 0.5 (N− S)P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} Rで上記のアルゴリズムを実装する: N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 0.670.670.67

2
を示す構成例
E (1の確率分布の例を構築する方法X)=1E(1X)=1E(X)\mathbb{E}\left(\frac{1}{X}\right)=\frac{1}{\mathbb{E}(X)}P(X≠0)=1P(X≠0)=1\mathbb{P}(X\ne0)=1と仮定して、 E(X )が成り立つ? 正の値RV用ジェンセンの不等式から以下の不平等XはXX似ているE (1X)≥1E(X )E(1X)≥1E(X)\mathbb{E}\left(\frac{1}{X}\right)\ge\frac{1}{\mathbb{E}(X)}(X&lt;0のX&lt;0X<0場合、逆不等式)。マッピングがためですxは↦1xx↦1xx\mapsto\frac{1}{x}は、x&gt;0のx&gt;0x>0場合は凸で、x&lt;0の場合はx&lt;0x<0凹です。ジェンセンの不等式の等号条件に従って、必要な等式が成立するためには、分布を縮退させる必要があると思います。等式が成り立つ些細なケースは、もちろんX=1X=1X=1aeの場合です。問題の本で見つけた例は次のとおりです。P(X=−1)=1のような離散確率変数XXX9、P(X=12)=P(X=2)=49P(X=−1)=19,P(X=12)=P(X=2)=49\mathbb{P}(X=-1)=\frac{1}{9}, \mathbb{P}(X=\frac{1}{2})=\mathbb{P}(X=2)=\frac{4}{9}。その後、E(1X)=1E(X ) =1E(1X)=1E(X)=1\mathbb{E}\left(\frac{1}{X}\right)=\frac{1}{\mathbb{E}(X)}=1。 この例は、タイトルの平等が保持されるために、XXXが正(または負)aeである必要がないことを示しています。ここでの分布も縮退していません。 本で見つけたようなサンプルを作成するにはどうすればよいですか?動機はありますか?

2
Kaggleコンペティションは偶然に勝っただけですか?
Kaggleコンペティションでは、実施済みのテストセットに基づいて最終ランキングを決定します。 保留テストセットはサンプルです。モデル化されている母集団を代表していない場合があります。各提出は仮説のようなものであるため、競争に勝ったアルゴリズムは、偶然にも、他のアルゴリズムよりもテストセットによく一致する可能性があります。つまり、別のテストセットが選択され、競争が繰り返された場合、ランキングは同じままになりますか? スポンサー企業にとって、これは実際には重要ではありません(おそらく、上位20件のサブミッションがベースラインを改善するでしょう)。皮肉なことに、彼らはより悪い最初のランクのモデルを使用することになりますは他のトップ5よりもなります。しかし、競争の参加者にとって、Kaggleは最終的にはチャンスのゲームだと思われます。正しいソリューションにつまずくために運は必要ありません。テストセットに一致するものにつまずく必要があります。 統計的に区別できない上位チームがすべて勝つように競争を変更することは可能ですか?または、このグループで、最もpar約的または計算的に安価なモデルが勝つことができましたか?

4
ブラックウェルの賭け
Futilityクローゼットに対するBlackwellのベットパラドックスについて読んだことがあります。ここでは要約は次のとおりです。あなたは、二つの封筒が提示され、とE yの。封筒にはランダムな金額のお金が入っていますが、お金の分布については何も知りません。あなたはそれを開き、そこにどれくらいのお金があるかをチェックし(x)、選択する必要があります:封筒E xまたはE yを取りますか?ExExE_xEyEyE_yxxxExExE_xEyEyE_y 無駄なクローゼットとは、レオナルドワプナーと呼ばれる数学者のことです。 私には間違っていると思われるアイデアは次のとおりです。乱数選択します。d &lt; xの場合、E xを取ります。d &gt; xの場合、E yを選択します。dddd&lt;xd&lt;xd < xExExE_xd&gt;xd&gt;xd > xEyEyE_y Wapner:「dがxとyの間にある場合、予測(dで示される)が正しいことが保証されます。これが確率pで発生すると仮定します。dがxとyの両方よりも小さい場合、選択した数値xが2つのうちの大きい場合にのみ、予測が正しくなります。この可能性は50%です。同様に、dが両方の数値よりも大きい場合、選択した数値が2つのうちの小さい方である場合にのみ予測が正しくなります。これは、50%の確率でも発生します。」 が[ x 、y ]にある確率が0より大きい場合、このメソッドの平均成功は1ですddd[x,y][x,y][x,y]。これは、無関係なランダム変数を観察することにより、追加情報が得られることを意味します。12+p212+p2\frac{1}{2} + \frac{p}{2} これはすべて間違っていると思いますし、問題はランダムな整数を選ぶことにあると思います。どういう意味ですか?どんな整数?その場合、確率そのDpppdddとの間に位置及びyはゼロであり、両方のためのxおよびyは有限です。xxxyyyxxxyyy に最大金額に制限がある、または少なくとも1 ... Mからdを選択すると言うと、レシピはx &lt; M / 2であればE yを選択するという簡単なアドバイスに要約されます。そして、x &gt; M / 2であればE xを選択します。MMM1...M1...M1...MEyEyE_yx&lt;M/2x&lt;M/2x < M/2ExExE_xx&gt;M/2x&gt;M/2x > M/2 ここで何かが恋しいですか? 編集 さて、今、私は明らかなパラドックスがどこから来たのかを見始めました。無関係なランダム変数が追加情報を提供することは不可能に思えました。 ただし、意識的にdの分布を選択する必要があることに注意してください。例えば、一様分布、またはのための境界線を選択明らかに、我々はピーナッツのためにプレーしている、と我々はの分布を選択した場合などPoissionian分布のDは上で均一であることが[ 10 9、2 ⋅ 10 9〕ドル、P …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.