タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。


3
1から100までの25個の乱数から、最高の乱数が複数回出現する確率はどのくらいですか?
多くのオンラインゲームでは、プレーヤーが難しいタスクを完了すると、タスクを完了した全員が使用できる特別な報酬が与えられることがあります。これは通常、マウント(輸送方法)または別のバニティアイテム(キャラクターのパフォーマンスを向上させず、外観のカスタマイズに主に使用されるアイテム)です。 そのような報酬が与えられた場合、誰が報酬を受け取るかを決定する最も一般的な方法は乱数を使用することです。ゲームには通常、1〜100のランダムな(暗号化セキュアランダムではなく、擬似ランダムのような)数を生成する特別なコマンドがあります(プレイヤーは別のスプレッドを選択できますが、100が最も一般的です)。各プレイヤーはこのコマンドを使用し、すべてのプレイヤーは誰が何をロールしたかを見ることができ、アイテムは最高のロールをした人に授与されます。ほとんどのゲームには、プレイヤーがボタンを押すだけで、誰もがボタンを押すと、ゲームが残りを自動的に行う組み込みシステムもあります。 時には、同じ高い数字を生成するプレイヤーもいますが、誰も彼らを倒しません。これは通常、一意の最高の数字が出るまで、プレイヤーが数字を再生成することで解決されます。 私の質問は次のとおりです。同じ確率で1〜100の任意の数を生成できる乱数ジェネレーターを想定します。25人のプレーヤーのグループがあり、それぞれがそのような乱数ジェネレーター(それぞれ独自のシード)で1つの数値を生成すると仮定します。1〜100の25個の数字があり、特定の数のプレーヤーを転がす人数に制限はなく、数字間に関係はありません。最大の生成数が複数のプレイヤーによって生成される可能性は何ですか?言い換えれば、同点の可能性は何ですか?

2
2つのiid対数正規確率変数の差
レッツと 2 iidrvのこと。分布を知りたい。X 2ログ(X 1)、ログ(X 2)〜N (μ 、σ )X 1 - X 2X1X1X_1X2X2X_2log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma)X1−X2X1−X2X_1 - X_2 私ができる最善の方法は、両方のテイラー級数を取り、差が残りの項間の差の残りに加えて、2つの通常のrvと2つのカイ二乗rvの差の合計であることを取得することです。2つのiid対数正規rvの差の分布を取得するより簡単な方法はありますか?

1
フィッシャー分布のフーリエ変換の反転
フィッシャー 分布の特性関数は次のとおりです ここでは、コンフルエントな超幾何関数です。n畳み込みの逆フーリエ変換\ mathcal {F} _ {t、x} ^ {-1}を解いて、変数xの密度を復元しようとしています。つまり、 \ mathcal {F} _ {t 、x} ^ {-1} \ left(C(t)^ n \ right)n の合計の分布を取得する目的でC (t )= Γ (α + 1F(1 、 α)F(1、α)\mathcal{F}(1,\alpha)UC( t )= Γ(α + 12) U(12、 1 - α2、 - I T α)Γ(α2)C(t)=Γ(α+12)うん(12、1−α2、−私tα)Γ(α2)C(t)=\frac{\Gamma \left(\frac{\alpha +1}{2}\right) U\left(\frac{1}{2},1-\frac{\alpha }{2},-i t \alpha …

3
Kはベルヌーイ試験で成功、またはジョージルーカスの映画実験
私は今「酔っぱらいの散歩」を読んでいて、そこから一つの物語を理解できません。 ここに行く: ジョージルーカスが新しいスターウォーズ映画を製作し、あるテストマーケットでクレイジーな実験を行うことに決めたと想像してください。彼は「スターウォーズ:エピソードA」と「スターウォーズ:エピソードB」という2つのタイトルで同一の映画をリリースしています。各映画には独自のマーケティングキャンペーンと配給スケジュールがあり、対応する詳細は同一です。ただし、一方の映画の予告編と広告は「エピソードA」、もう一方の映画のエピソードは「エピソードB」です。 今、私たちはそれからコンテストを作ります。どの映画がより人気がありますか?最初の20,000人の映画ファンを見て、彼らが選んだ映画を録画したとしましょう(両方に行って、両者の間に微妙ではあるが意味のある違いがあると主張する頑固なファンを無視します)。映画とそのマーケティングキャンペーンは同一なので、この方法でゲームを数学的にモデル化できます。すべての視聴者を一列に並べ、各視聴者のコインを順番に反転させることを想像してください。コインが着地した場合、彼または彼女はエピソードAを見ます。コインが着地した場合、エピソードBになります。コインはどちらの方法でも同じ確率で出現するため、この実験的な興行戦争では、各映画が約半分の時間でリードしていると考えるかもしれません。 しかし、ランダム性の数学は別の言い方をします:リードの変化の最も可能性の高い数は0であり、2つの映画の1つが20,000人の顧客すべてをリードする可能性は、リードが継続的にシーソーするよりも88倍高い」 私は、おそらく間違って、これを単純なベルヌーイ裁判の問題に起因するものであり、リーダーが平均してシーソーを行わない理由がわからないと言わなければなりません!誰でも説明できますか?

1
自信を持って公平性を評価するために、ダイスを何回振る必要がありますか?
(統計的言語ではなく、素人の言語を使用したことに対する事前の謝罪。) 特定の物理的な6面ダイスの各面を約+/- 2%以内に確実に合理的に自信を持ってロールするオッズを測定したい場合、サンプルダイスロールはいくつ必要ですか? すなわち、それぞれの結果を数えてダイスを振る必要がある回数は、それが各サイドを振る可能性が14.6%-18.7%以内であることを98%確信するために必要ですか?(または、ダイが2%以内で公平であると約98%確信するような類似の基準) (これは、シミュレーションゲームは、サイコロを使用してください特定のサイコロのデザインになりたいために、実世界の関心事である許容可能な近接数を転がすの1/6機会にしている。があります主張、多くの一般的なサイコロの設計はで29%1つのローリングに測定されていることがそのようなサイコロをそれぞれ1000回転がします。)

3
なぜ最大尤度であり、予想尤度ではないのですか?
なぜパラメーターの最尤推定値を取得するのがそれほど一般的であるのに、予想尤度パラメーター推定値についてはほとんど聞いていません(つまり、尤度関数のモードではなく期待値に基づいています)。これは主に歴史的な理由によるものですか、それともより実質的な技術的または理論的な理由によるものですか? 最尤推定値ではなく予想尤度推定値を使用することには、大きな利点や欠点がありますか? 予想尤度推定が日常的に使用される領域はありますか?

1
ランダム変数によって生成された
多くの場合、統計の(自己)研究の過程で、「σσ\sigmaランダム変数によって生成される代数」という用語に出会いました。私はウィキペディアの定義を理解していませんが、最も重要なのは、その背後にある直感を理解していないことです。なぜ/ときに我々が必要なのですσ−σ−\sigma-ランダム変数によって生成された代数を?それらの意味は何ですか?私は次のことを知っています: σσ\sigmaセットに-代数ΩΩ\Omegaの部分集合の空でない集合されΩΩ\Omega含まΩΩ\Omega、補完下と可算組合の下で閉じています。 σσ\sigma代数を導入して、無限のサンプル空間に確率空間を構築します。特に、ΩΩ\Omegaが数え切れないほど無限である場合、測定不能なサブセット(確率を定義できないセット)が存在する可能性があることがわかります。したがって、私たちはただのパワーセットを使用することはできませんΩΩ\Omega P(Ω)P(Ω)\mathcal{P}(\Omega)イベントの私達のセットとしてFF\mathcal{F}。興味深いイベントの確率を定義できるように、まだ十分な大きさの小さなセットが必要です。また、一連のランダム変数の収束について話すことができます。 要するに、私はσの公正で直感的な理解を持っていると思う代数を。私はのための同様の理解がしたい σ -ランダム変数によって生成された代数:定義、我々は彼らを必要とする理由、直感、例を...σ−σ−\sigma-σ−σ−\sigma-

4
ディープラーニングモデルの場合、softmax出力が不確実性の指標として適切ではないのはなぜですか?
私は現在、主にセマンティックセグメンテーション/インスタンスセグメンテーションの画像データで、畳み込みニューラルネットワーク(CNN)を使用しています。ネットワーク出力のソフトマックスを「ヒートマップ」として頻繁に視覚化して、特定のクラスのピクセルごとのアクティベーションの高さを確認しました。低活性化は「不確実」/「自信がない」と解釈し、高活​​性化は「特定」/「自信がある」予測と解釈しました。基本的に、これは、softmax出力(内の値)をモデルの確率または(不)確実性尺度として解釈することを意味します。(0,1)(0,1)(0,1) (たとえば、ピクセル全体で平均された低いソフトマックスアクティベーションを持つオブジェクト/エリアは、CNNが検出するのが難しいと解釈したため、CNNはこの種のオブジェクトの予測について「不確か」です。) 私の認識では、これはよく機能し、トレーニング結果に「不確実な」領域のサンプルを追加すると、これらの結果が改善されました。しかし、ソフトマックスの出力を(不)確実性の尺度として使用/解釈するのは良い考えではなく、一般的にはお勧めできないと、さまざまな側面からよく耳にします。どうして? 編集:ここで私が尋ねていることを明確にするために、この質問に答える際のこれまでの洞察について詳しく説明します。しかし、同僚、監督者から繰り返し言われたように、なぜそれが一般的に悪い考えであるのか、以下の議論のどれも私に明らかにしませんでした。 分類モデルでは、パイプラインの最後に取得された確率ベクトル(softmax出力)は、モデルの信頼度として誤って解釈されることがよくあります。 またはここの「背景」セクションで: たたみ込みニューラルネットワークの最終ソフトマックスレイヤーによって与えられた値を信頼スコアとして解釈するのは魅力的かもしれませんが、これを読みすぎないように注意する必要があります。 上記の原因は、ソフトマックス出力を不確実性の尺度として使用するのが悪い理由です。 実画像に対する知覚できない摂動は、深いネットワークのソフトマックス出力を任意の値に変更する可能性があります これは、softmax出力が「知覚できない摂動」に対してロバストではないことを意味します。したがって、その出力は確率として使用できません。 別の論文では、「softmax output = Confidence」という考え方が取り上げられており、この直観ではネットワークは簡単にだまされる可能性があり、「認識できない画像に対する信頼性の高い出力」が得られると主張しています。 (...)特定のクラスに対応する(入力ドメイン内の)領域は、そのクラスのトレーニングサンプルが占めるその領域のスペースよりもはるかに大きい場合があります。この結果、画像はクラスに割り当てられた領域内にあるため、softmax出力の大きなピークで分類されますが、トレーニングセットのそのクラスで自然に発生する画像からは遠くなります。 これは、トレーニングデータから遠く離れたデータは、モデルが(それを見たことがないので)確信できないため、高い信頼を得ることはないことを意味します。 ただし、これは一般的に、NN全体の一般化特性を単純に疑問視しているのではありませんか?すなわち、ソフトマックス損失を伴うNNは、(1)「知覚できない摂動」または(2)認識できない画像などのトレーニングデータから遠く離れた入力データサンプルにうまく一般化しないということです。 この推論に続いて、私はまだ理解していません、なぜ実際にトレーニングデータ(すなわち、ほとんどの「実際の」アプリケーション)に対して抽象的および人為的に変更されていないデータで、ソフトマックス出力を「疑似確率」として解釈するのが悪いのか考え。結局のところ、彼らは私のモデルが正しいとは限らない場合でも、そのモデルが確信していることをよく表しているようです(この場合、モデルを修正する必要があります)。そして、モデルの不確実性は常に「単なる」近似ではありませんか?

3
尤度の定義に頻度主義者とベイジアンの間に違いはありますか?
尤度関数は条件付き確率ではないと言う人もいれば、そうだと言う人もいます。これは非常に混乱しています。 私が見たほとんどの情報源によると、パラメータ分布の尤度は、x iの n個のサンプルが与えられた確率質量関数の積でなければなりません。θθ\thetannnxixix_i L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta) たとえば、ロジスティック回帰では、最適化アルゴリズムを使用して尤度関数(最大尤度推定)を最大化し、最適なパラメーター、したがって最終的なLRモデルを取得します。互いに独立していると仮定するトレーニングサンプルが与えられた場合、確率の積(または結合確率質量関数)を最大化します。これは私には明らかです。nnn よるとの関係:可能性、条件付き確率と故障率、「可能性は確率ではありません、それは条件付き確率ではありません」。また、「尤度はベイジアンの尤度の理解においてのみ条件付き確率です。つまり、が確率変数であると仮定した場合」。θθ\theta 頻度の高い人とベイジアンの間で学習問題を扱う際のさまざまな視点について読みました。 ソースによると、ベイジアン推論の場合、アプリオリ、尤度P (X | θ )があり、ベイジアン定理を使用して事後P (θ | X )を取得します。P(θ)P(θ)P(\theta)P(X|θ)P(X|θ)P(X|\theta)P(θ|X)P(θ|X)P(\theta|X) P(θ|X)=P(X|θ)×P(θ)P(X)P(θ|X)=P(X|θ)×P(θ)P(X)P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)} 私はベイジアン推論に精通していません。どうしてP(X|θ)P(X|θ)P(X|\theta)そのパラメータを条件と観測データの分布である、また、可能性と呼ばれますか?ではウィキペディア、それが時にはそれが書かれていると言い。これは何を意味するのでしょうか?L(θ|X)=p(X|θ)L(θ|X)=p(X|θ)L(\theta|X)=p(X|\theta) 頻度についての頻度とベイジアンの定義に違いはありますか? ありがとう。 編集: ベイズの定理の解釈には、ベイズの解釈と頻度論者の解釈のさまざまな方法があります(ベイズの定理-ウィキペディアを参照)。

2
この離散分布には名前がありますか?
この離散分布には名前がありますか?以下のためのi∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} この分布に出くわしたのは次のとおりです。ユーティリティ機能によってランク付けされたアイテムのリストがあります。リストの先頭にバイアスをかけながら、アイテムの1つをランダムに選択します。そこで、最初に1とNの間のインデックスjを一様に選択します。次に、インデックス1とjの間のアイテムを選択します。このプロセスにより上記の分布が得られると思います。NNNjjjNNNjjj

1
非常に小さな尤度値を確率に変換(正規化)する
モデルを指定して、データセットのリストの尤度を計算し、各尤度を(確率で)正規化する必要があるアルゴリズムを作成しています。したがって、[0.00043、0.00004、0.00321]のようなものは、[0.2、0.03、0.77]のように変換される可能性があります。 私の問題は、私が取り組んでいる対数尤度が非常に小さいことです(たとえば、ログスペースでは、値は-269647.432、-231444.981などのようになります)。私のC ++コードで、それらを2つ追加しようとすると(指数を取ることで)、「Inf」という答えが返されます。私はそれらをログスペース(ログの合計/減算)に追加しようとしましたが、再び同じ問題に出くわしました。 誰もこれについて専門家の意見を共有できますか?

3
比較および対比、p値、有意水準およびタイプIエラー
p値、有意水準、タイプIエラーの定義と使用に関して、だれかが簡潔に要約できるかどうか疑問に思っていました。 p値は「少なくとも実際に観測したものと同じくらい極端な検定統計量を取得する確率」として定義され、p値が有意であるかどうかを測定するための有意水準は単なる任意のカットオフ値です。タイプIエラーは、真である帰無仮説を棄却したエラーです。ただし、有意水準とタイプIエラーの違いについては不明ですが、それらは同じ概念ではありませんか? たとえば、コインを1000回裏返し、「頭」に着弾した回数を数える非常に単純な実験を想定します。私の帰無仮説、H0は、heads = 500(不偏コイン)です。次に、有意水準をalpha = 0.05に設定します。 コインを1000回反転し、p値を計算します。p値が0.05より大きい場合、帰無仮説を棄却できず、p値が0.05未満の場合、帰無仮説を棄却します。 今、この実験を繰り返して、p値を計算し、帰無仮説を拒否または拒否し、拒否した/拒否しなかった回数を数えるたびに、帰無仮説の5%を拒否することになります実際にはどれが本当でしたか、それは正しいですか?これがタイプIエラーの定義です。したがって、フィッシャー有意性検定の有意水準は、繰り返し実験を実行した場合の本質的に、ネイマンピアソン仮説検定からのタイプIエラーです。 p値については、最後の実験から0.06のp値を得て、複数の実験を行い、0から0.06のp値を取得したすべての実験を数えた場合、真の帰無仮説を棄却する確率は6%ですか?

2
確率変数が最大になる確率をどのように制限できますか?
\newcommand{\P}{\mathbb{P}}有限平均\ mu_1 \ leq \ ldots \ leq \ mu_Nおよび分散\ sigma_1 ^ 2、\ ldots、\を持つNNN独立したランダム変数X1X1X_1、……\ldots、XnXnX_nがあるとしますsigma_N ^ 2。X_i \ neq X_Nが他のすべてのX_j、j \ neq iよりも大きい確率の分布のない境界を探しています。σ 2 1 ... σ 2 N X I ≠ X N Xのjは J ≠ Iμ1≤…≤μNμ1≤…≤μN\mu_1 \leq \ldots \leq \mu_Nσ21σ12\sigma_1^2……\ldotsσ2NσN2\sigma_N^2Xi≠XNXi≠XNX_i \neq X_NXjXjX_jj≠ij≠ij \neq i 言い換えると、簡単にするためにX_iの分布XiXiX_iが連続的であると仮定する場合(P(Xi=Xj)=0P(Xi=Xj)=0\P(X_i = X_j) = 0)、次の境界を探しています: …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.