タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

1
ネグ二項とジェフリーズ・プリアー
負の二項分布のジェフリーズの事前分布を取得しようとしています。どこが悪いのかわからないので、誰かが指摘してくれると助かります。 さて、状況ように、このです。私は二項と負の二項を用いて得られた事前分布を比較するために午前、(両方の場合に)がある場合試験およびMの成功は。二項式の場合は正しい答えが得られますが、負の二項式の場合は得られません。んnnメートルmm レッツ・コールジェフリーズの事前。そして、πJ(θ )πJ(θ)\pi_J(\theta) πJ(θ )∝ [ I(θ )]1 / 2。πJ(θ)∝[I(θ)]1/2. \pi_J(\theta)\propto [I(\theta)]^{1/2}. 規則性の条件の下で(指数関数的なファミリーを扱っているので満たされます)、 ここで、負の二項のために、Nであり、X成功の総数が上記式(中mは固定されて、N)ではありません。分布-私は思う-は私(θ )= − E(∂2ログL (θ | x )∂θ2)I(θ)=−E(∂2log⁡L(θ|x)∂θ2) I(\theta)=-E\left(\frac{\partial^2 \log L(\theta|x)}{\partial \theta^2}\right) んnnバツxxmmmnnn p(m|θ)∝θm(1−θ)n−mp(m|θ)∝θm(1−θ)n−m p(m|\theta)\propto\theta^m(1-\theta)^{n-m} θθ\thetammmmmm L(θ|n)∝θm(1−θ)n−mlogL(θ|n)=mlogθ+(n−m)log(1−θ)∂logL(θ|n)∂θ=mθ−n−m1−θ∂2logL(θ|n)∂θ2=−mθ2−n−m(1−θ)2L(θ|n)∝θm(1−θ)n−mlog⁡L(θ|n)=mlog⁡θ+(n−m)log⁡(1−θ)∂log⁡L(θ|n)∂θ=mθ−n−m1−θ∂2log⁡L(θ|n)∂θ2=−mθ2−n−m(1−θ)2 L(\theta|n)\propto\theta^m(1-\theta)^{n-m}\\ \log L(\theta|n)=m\log\theta +(n-m)\log (1-\theta)\\ \frac{\partial\log L(\theta|n)}{\partial \theta}=\frac{m}{\theta}-\frac{n-m}{1-\theta}\\ \frac{\partial^2\log L(\theta|n)}{\partial \theta^2}=-\frac{m}{\theta^2}-\frac{n-m}{(1-\theta)^2} I(θ)=−E(∂2logL(θ|n)∂θ2)=mθ2+E(n)−m(1−θ)2=mθ2+mθ1−θ−m(1−θ)2=m(1−θ)2+mθ3(1−θ)−mθ2θ2(1−θ)2=m(1−2θ)+mθ3(1−θ)θ2(1−θ)2=m(1−2θ)(1−θ)+mθ3θ2(1−θ)3=m(1−3θ+2θ2+θ3)θ2(1−θ)3∝1−3θ+2θ2+θ3θ2(1−θ)3I(θ)=−E(∂2log⁡L(θ|n)∂θ2)=mθ2+E(n)−m(1−θ)2=mθ2+mθ1−θ−m(1−θ)2=m(1−θ)2+mθ3(1−θ)−mθ2θ2(1−θ)2=m(1−2θ)+mθ3(1−θ)θ2(1−θ)2=m(1−2θ)(1−θ)+mθ3θ2(1−θ)3=m(1−3θ+2θ2+θ3)θ2(1−θ)3∝1−3θ+2θ2+θ3θ2(1−θ)3 I(\theta)=-E\left(\frac{\partial^2\log L(\theta|n)}{\partial \theta^2}\right)=\frac{m}{\theta^2}+\frac{E(n)-m}{(1-\theta)^2}=\frac{m}{\theta^2}+\frac{\frac{m\theta}{1-\theta}-m}{(1-\theta)^2}\\ =\frac{m(1-\theta)^2+\frac{m\theta^3}{(1-\theta)}-m\theta^2}{\theta^2(1-\theta)^2}=\frac{m(1-2\theta)+\frac{m\theta^3}{(1-\theta)}}{\theta^2(1-\theta)^2}\\ =\frac{m(1-2\theta)(1-\theta)+m\theta^3}{\theta^2(1-\theta)^3}=\frac{m(1-3\theta+2\theta^2+\theta^3)}{\theta^2(1-\theta)^3}\\ \propto\frac{1-3\theta+2\theta^2+\theta^3}{\theta^2(1-\theta)^3} しかし、これは私に正しい答えを与えません。正解は …

2
この離散分布(再帰的差分方程式)の名前は何ですか?
コンピューターゲームでこのディストリビューションに出会い、その動作についてもっと知りたいと思いました。これは、特定の数のプレーヤーアクションの後に特定のイベントを発生させるかどうかの決定に基づいています。これ以上の詳細は関係ありません。他の状況にも当てはまるようですが、計算が簡単でロングテールがつくので面白かったです。 ステップごとに、ゲームは均一な乱数ます。場合、その後、イベントがトリガされます。イベントが一度発生すると、ゲームはリセットされ、シーケンスを再度実行します。この問題のイベントの1つの発生にのみ興味があります。これは、ゲームが使用しているディストリビューションを表しているためです。(また、複数の発生に関する質問は、単一の発生モデルで回答できます。)0 ≤ X &lt; 1 、X &lt; P (N )N = 0nnn0≤X&lt;10≤X&lt;10 \leq X < 1X&lt;p(n)X&lt;p(n)X < p(n)n=0n=0n = 0 ここでの主な「異常」は、この分布の確率パラメーターが時間の経過とともに増加するか、言い換えれば、しきい値が時間の経過とともに増加することです。この例では直線的に変化しますが、他のルールを適用できると思います。ステップまたはユーザーによるアクションの後、nnn p(n)=knp(n)=kn p(n) = kn ある定数。ある点、p(n _ {\ max})\ geq 1が得られます。イベントはそのステップで発生することが保証されているだけです。0&lt;k&lt;10&lt;k&lt;10 < k < 1nmaxnmaxn_{\max} p(nmax)≥1p(nmax)≥1p(n_{\max}) \geq 1 私はそれを決定することができました F (n )= p (n )+ F (n - 1 …

2
純粋な数学者に適用される確率の紹介?
私は純粋な数学(メジャー理論、関数分析、演算子代数など)の大学院レベルのバックグラウンドを持っています。また、確率理論(基本原理から機械学習技術まで)の知識が必要な仕事も持っています。 私の質問:誰かがいくつかの正規の読みと参考資料を提供できますか? 確率論の自己完結型入門 メジャー理論の方法論と証明を避けないでください 応用技術に重点を置きます。 基本的に、純粋な数学者向けの応用確率理論を教えてくれる本が欲しい。確率論の基本的な公理から始まり、数学的厳密さを備えた応用概念を紹介するもの。 コメントに従って、必要なものについて詳しく説明します。基本から高度なデータマイニングを行っています。ロジスティック回帰、ディシジョンツリー、基本的な統計と確率(分散、標準偏差、尤度、確率、尤度など)、教師ありと教師なしの機械学習(主にクラスタリング(K平均、階層、SVM))。 上記を念頭に置いて、最初から始まる本が欲しいです。確率測度を定義するだけでなく、それらがどのようにして基本的な総和確率になるかを示します(私は直観的に、離散セットでの積分によって発生します)。そこから、マルコフ連鎖、ベイジアン....理論の背後にある基本的な推論について説明し、厳密な数学の概念を紹介しながら、これらの方法が実際の世界(具体的にはデータ)にどのように適用されるかを示します。マイニング)。 そのような本または参考文献は存在しますか? ありがとうございました! PS-私はこれがこの質問の範囲と似ていることを理解しています。ただし、私は(2つのフィールドと同様に)統計ではなく確率論を探しています。


8
囚人のパラドックス
私はエクササイズを与えられて、それを完全に理解することができません。 囚人のパラドックス独房監禁のA、B、Cの3人の囚人が同じ日に死刑を宣告されたが、祝日があるので、知事は赦免を与えられると決定した。囚人はこのことを知らされているが、彼らは処刑の予定された日まで彼らのうちのどれが救われるべきか知らないだろうと伝えられた。 囚人Aは看守に「私は少なくとも他の2人の囚人が処刑されることをすでに知っているので、あなたが処刑される人の名前を私に言った場合、あなたは私自身の処刑についての情報を私に与えなかったでしょう」 。 看守はこれを受け入れ、Cは必ず死ぬだろうと彼に話します。 次に、「Cが処刑されることを知る前に、恩赦を受ける確率は3分の1でした。今、私はBまたは私自身がオッズが1対2に改善されたことが許されることを知っています。」 しかし看守は、「もし私がBが死ぬだろうと言っていたら、同様の結論に達することができ、BかCのどちらかに答える必要があったので、なぜあなたは尋ねる必要があったのか?」と指摘しました。 Aが恩赦を受ける可能性はどのようなもので、その理由は何ですか?あなたが正しいことを他の人に納得させる説明を作成します。 ベイズの定理、信念のネットワーク、または常識によってこれに取り組むことができます。どちらの方法を選択しても、条件付き確率という一見単純な概念の理解が深まるはずです。 これが私の分析です: これはモンティホールの問題のように見えますが、完全ではありません。I change my place with BCが死ぬと言われた後でAが言った場合、彼は2/3の確率で救われる。彼がそうしない場合、私は彼がモンティホール問題であなたの選択を変えないときのように、彼が生きる可能性は1/3であると言います。しかし同時に、彼は2人の男のグループに属しており、1人は死ぬはずなので、彼の可能性は1/2であると言いたくなります。 だからパラドックスはまだここにあります、あなたはこれにどのように取り組みますか?また、私はこれについてどのように信念ネットワークを作ることができるかわからないので、それを見て興味があります。

2
サイコロのロールに影響を与えることができると言う精神病者のためのテストを設計する
私が友人を持っているとしましょう(彼を「ジョージ」と呼びましょう)、彼は彼の心を使ってサイコロの出目を制御できる(つまり、彼が考えている特定の数にサイコロが落ちる可能性が高くなります)と言っています。 科学的に厳密なテストを設計して、彼が実際にこれを実行できるかどうかを判断するにはどうすればよいですか?(もちろん、彼ができるとは本当に思っていませんが、テストを開始する前に、アメージングランディスタイルのテストの詳細に同意してほしいと思います。)(非常にありそうな)ポストテストの言い訳を減らしたい彼が思いつくだろうこと。 ここに私がこれまでに持っているものがあります: サイコロの物理的なローリングテクニック(サイコロ、シェーカーカップ、着陸面など)を決定する サイコロのX個のロールで構成される「テストセッション」を定義します。これは、1度に行うには十分に小さい必要がありますが、サイコロが公平に落ちたかどうか、または片方を優先したかどうかを95%〜99%の信頼度で(分析後に)判断するのに十分な大きさである必要があります 選択したサイコロでYセッションを実行し(ジョージからの影響なし)、「コントロール」として、サイコロが自分で「公正な」結果を表示することを確認します。 GeorgeとZセッションを実行します。それぞれの前に、個別のサイコロを振って、そのセッション全体でジョージが「集中する」数字を決定します。 結果をコンパイルして分析します。 ジョージは彼の悲惨なパフォーマンスのいくつかの言い訳をします。 だからあなたへの私の質問: 私の方法論全体に欠陥や問題はありますか?ジョージが反対する可能性が高いことは何ですか? D6を使用する必要がありますか?またはD20?それは重要ですか?同じように自信のある結果を出すには、より多くのフェースを持つダイでより多くのロールが必要になるでしょうか?それとも反対ですか?実際の考慮事項から、私は多くよりも少ないロールを好むでしょう:) X、Y、およびZの適切な値は何ですか?それらは完全に無関係ではありません。選択したXの値が1つのセッションの95%の信頼しか許さない場合、ジョージの影響がなくても、20セッションごとに1つが「失敗」する可能性があります。 個々のセッションの「成功」または「失敗」を定義するにはどうすればよいですか?(カイ二乗検定の詳細を通過するこの質問を見つけたので、それが私の評価方法だと思いますが、妥当な信頼しきい値とは何ですか?) テスト全体の「成功」または「失敗」を定義するにはどうすればよいですか?ジョージはたった1回のセッションで「勝つ」かもしれませんが、テスト全体に合格するには、Zセッションの何回をパスする必要がありますか? MS Excelスプレッドシートでこれらの結果を分析することになります。

2
査読済みのウィキStatProb.comで公開する価値はありますか?[閉まっている]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 6か月前に閉鎖。 バックグラウンド Andrew GelmanのブログのコメントからStatProb.comについて読みました。 ウェブサイトによると、StatProbは次のとおりです。 StatProb:Statistics and Probability Societiesが主催する百科事典は、従来のwiki(迅速で最新の公開、ユーザー生成の開発、ハイパーリンク、および保存された履歴)の利点と従来の公開(品質保証、レビュー、著者への信用)を組み合わせたものです。 、および構造化された情報の表示)。すべての寄稿は、主要な統計学会によって決定された編集委員会によって承認されています。編集委員会のメンバーはAboutページにリストされています。 私は統計学者ではありませんが、統計情報を使用しています。このサイトは、他の人には役立つ可能性があるが、付録として含めたり、ウェブサイトに投稿したりしない限り、非公開になる可能性のある資料を公開する機会を提供しているようです。審査プロセスは、私が使用する方法に対する私自身の自信を高め、公共の場である程度の信頼性を与えるため、このオプションは魅力的です。 主要な統計と確率社会のサポートにもかかわらず、サイトは離陸していません。確かに、あるブロガーは「RIP StatProb?」そして寄付の頻度は時間とともに減少しています。 質問: StatProb.comを通じて公開するのは、努力する価値がありますか? 更新: 本日(2012-02-01)の時点で、最新の貢献は2011-05-04でした。最新の編集2011-06。そのため、質問が最初に尋ねられたときよりも今日はあまり魅力的ではないように見えます。

1
この「最大相関係数」とは何ですか?
典型的な画像処理統計は、14であるHaralickテクスチャ機能の使用です。 これらの機能の14番目について不思議に思っています。隣接マップ(2つの整数の経験的分布を簡単に表示できる)が与えられた場合、それは次のように定義されます 2番目の固有値の平方根、ここで、は次のとおりです。i 、j &lt; 256 Q QPPPi,j&lt;256i,j&lt;256i,j < 256QQQQQQ Qij=∑kP(i,k)P(j,k)[∑xP(x,i)][∑yP(k,y)]Qij=∑kP(i,k)P(j,k)[∑xP(x,i)][∑yP(k,y)]Q_{ij} = \sum_k \frac{ P(i,k) P(j,k)}{ [\sum_x P(x,i)] [\sum_y P(k, y)] } グーグルで検索した後でも、この統計の参照は見つかりませんでした。その特性は何ですか?それは何を表していますか? (上記の値は、値ピクセルの隣に値ピクセルが見つかる正規化された回数です)。i jP(i,j)P(i,j)P(i,j)iiijjj

3
近似
概算するための最良の方法は何だ与えられた二つの整数のためのmは、nはあなたが平均知っているときμ、分散σ 2、歪度γ 1と過剰尖度γ 2離散分布のXを、そしてそれがあります明確な形状の(非ゼロ)測定からγ 1及びγ 2正規近似が適切でないと?Pr[n≤X≤m]Pr[n≤X≤m]Pr[n \leq X \leq m]m,nm,nm,nμμ\muσ2σ2\sigma^2γ1γ1\gamma_1γ2γ2\gamma_2XXXγ1γ1\gamma_1γ2γ2\gamma_2 通常、私は整数補正付きの通常の近似を使用します... Pr[(n−½)≤X≤(m+½)]=Pr[(n−½)−μσ≤Z≤(m+½)−μσ]=Φ((m+½)−μσ)−Φ((n−½)−μσ)Pr[(n−½)≤X≤(m+½)]=Pr[(n−½)−μσ≤Z≤(m+½)−μσ]=Φ((m+½)−μσ)−Φ((n−½)−μσ)Pr[(n - \text{½})\leq X \leq (m + \text{½})] = Pr[\frac{(n - \text{½})-\mu}{\sigma}\leq Z \leq \frac{(m + \text{½})-\mu}{\sigma}] = \Phi(\frac{(m + \text{½})-\mu}{\sigma}) - \Phi(\frac{(n - \text{½})-\mu}{\sigma}) ...歪度と過剰な尖度が0に近い(近い)場合、ただし、ここではそうではありません。 私は、異なる値を有する異なる離散分布に対して複数の近似を実行する必要が及びγ 2。用途があること手順確立があれば調べることに興味がある私はγ 1およびγ 2を正規近似よりも良い近似を選択するためには。γ1γ1\gamma_1γ2γ2\gamma_2γ1γ1\gamma_1γ2γ2\gamma_2

1
直感的に、なぜクロスエントロピーは2つの確率分布の距離の尺度になるのでしょうか。
2つの離散分布および場合、クロスエントロピーは次のように定義されます。pppqqq H(p 、q)= − ∑バツp (x )ログq(x )。H(p、q)=−Σバツp(バツ)ログ⁡q(バツ)。H(p,q)=-\sum_x p(x)\log q(x). なぜこれが2つの確率分布間の距離を直感的に測定できるのでしょうか。 私がいることがわかりエントロピーである、の対策「驚き」。、部分的に置き換える尺度であるすることにより。私はまだ定義の背後にある直感的な意味を理解していません。H(p 、p )H(p、p)H(p,p)ppppppH(p 、q)H(p、q)H(p,q)pppqqq

2
たたみ込みはなぜ機能するのですか?
したがって、独立確率変数合計の確率分布を求めたい場合は、次のようにしてと確率分布から計算できることを知っています。X+YX+YX + YXXXYYY fX+Y(a)=∫∞x=−∞fX,Y(X=x,Y=a−x) dx=∫∞x=−∞fX(x)fY(a−x) dxfX+Y(a)=∫x=−∞∞fX,Y(X=x,Y=a−x) dx=∫x=−∞∞fX(x)fY(a−x) dxf_{X + Y}(a) = \int_{x = -\infty}^{\infty} f_{X, Y}(X = x, Y = a - x)~dx = \int_{x = -\infty}^{\infty} f_X(x) f_Y(a - x)~dx 直感的には、これは理にかなっています。2つのランダム変数が合計してになる確率を求めたい場合、それは基本的に、それらの変数がに合計さすべてのイベントの確率の合計です。しかし、どうすればこの声明を正式に証明できますか?aaaaaa

1
なぜ人々は「証拠の重み」という用語を使用し、それが「個別の相互情報」とどのように異なるのですか?
ここで、「証拠の重み」(WOE)は、公開された科学的および政策立案の文献における一般的な用語であり、以下によって定義されるリスク評価のコンテキストで最もよく見られます。 w (e :h )= ログp (e | h )p (e | h¯¯¯)w(e:h)=log⁡p(e|h)p(e|h¯)w(e : h) = \log\frac{p(e|h)}{p(e|\overline{h})} ここで、は証拠、hは仮説です。eeehhh 今、私はPMI(点ごとの相互情報)との主な違いは何であるか知りたいです p m i (e 、h )= ログp (e 、h )p (e )∗ p (h )pmi(e,h)=log⁡p(e,h)p(e)∗p(h)pmi(e,h)=\log\frac{p(e,h)}{p(e)*p(h)}


2
ベイジアンはどのようにしてモンテカルロシミュレーション法を使用してメソッドを検証しますか?
背景:私は社会心理学の博士号を取得しており、理論的な統計と数学は私の定量的な授業ではほとんどカバーされていません。学部と大学院を通して、私は(おそらく社会科学の多くの人と同じように)「古典的な」頻出主義の枠組みを通じて教えられました。今、私はまた、Rを愛し、メソッドの作業が行うことを確認するためにシミュレーション手法を使用しての道を数学的な証明よりも私には感覚的です(ここでも、理論的な統計ではなく、量的社会科学の背景)。頻度論的手法とシミュレーション手法を組み合わせることは、私にとって非常に意味のあることです。常連客は確率を長期的なオッズと見なしているためです(たとえば、これを任意の回数実行すると、50%の確率で発生し、50%の確率になります)。モンテカルロ法でこの長期をシミュレーションできます! 合併症:学部生以来、ベイズ法に非常に気づいていて、人生の中でベイズ側に電話をかけてくる人が常にいて、結果の解釈が簡単で、データの代わりに仮説の確率が得られると言ってきました仮説などを与えられました。私は本当にこれに夢中になって、ベイジアンクラスを取り、いくつかのベイジアンの本や論文を読み、現在はスタンとそれに関連するRパッケージにかなり精通しています。 Mayoに入る:「Bayesianはおそらく未来の道だ」としばらく考えた後、私はDeborah Mayoの統計的推論をSevere Testingとして読みました。彼女は本の最初でどちらか一方を選ぶことはないと言いますが、そうします:彼女は常習者であり、本の多くは頻出主義の方法論を擁護しています。私は、彼女が証拠を見る方法が有効であると私たちが考えるかどうかの議論に必ずしも入りたくありませんが、これは私に考えさせました:ベイズが宣伝されているすべては本当にですか?つまり、ベイズの群衆はそれ自体が分裂しているため、ベイジアンフレームワークでデータを分析するための「正しい」方法をよく知りません。通常、私は単に使用しますrstanarm現在のポイントの推定値と信頼できる区間...これは、頻繁に頻度論者の推定値と信頼区間と一致します。私はモデル比較を行うかもしれませんが、ベイズ因子を事後確率比較などとして説明することは常に恐れています。 もっと考える:メイヨーの本を通して私がずっと考えていたのは次のとおりです。コンピュータを使用して頻出主義の方法を確実に機能させる方法があります。なぜなら、確率は長期的に見られるものであり、それをシミュレートできるからです。ベイジアンは、どの確率が実際にあるのかについてさえ合意することができないようです。それは、ベイジアンスクール(デフォルト、主観など)によって異なります。それが私の質問につながります: 質問:長期的に確率が確率として定義されていない場合、モンテカルロシミュレーション法を使用して、ベイズの方法が不確実性を適切に定義している(つまり、有効な信頼できる区間と事後分布を計算する)ことをどのように確認しますか? 例:データジェネレータを作成します。これは、0.5の確率でベルヌーイ分布からシミュレーションを行うだけです。 set.seed(1839) p &lt;- .50 n &lt;- 100 gen_dat &lt;- function(n, p) { rbinom(n, 1, p) } ここで、ロジスティック回帰の信頼区間が実際に有効であることを確認したいとします。回帰を何度もシミュレートして、実際の母集団の値が95%の時間の95%信頼区間内にあることを確認できます。これは切片のみのモデルなので、p正しく推定していることを確認したいだけです。 set.seed(1839) iter &lt;- 10000 results &lt;- sapply(seq_len(iter), function(zzz) { mod &lt;- glm(gen_dat(n, p) ~ 1, binomial) conf &lt;- suppressMessages(confint(mod)) log(p / (1 - p)) &lt; …

3
ダイス100は20回以上出現する顔を転がしません
私はこの問題に頭を抱えようとしています。 サイコロを100回振る。顔が20回以上表示されない確率はどれくらいですか?私の最初の考えは、二項分布P(x)= 1-6 cmf(100、1/6、20)を使用することでしたが、いくつかのケースを複数回カウントするため、これは明らかに間違っています。私の2番目のアイデアは、可能なすべてのロールx1 + x2 + x3 + x4 + x5 + x6 = 100を列挙して、xi &lt;= 20とし、多項式を合計することですが、これは計算が集中しすぎるようです。近似解も私にとってはうまくいきます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.