タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

9
このチャートは、テロ攻撃の可能性を統計的に示していますか?
私はこの画像が頻繁に渡されるのを見ています。 私はこの方法で提供された情報が何らかの形で不完全である、または誤っていることさえあるという直感を持っていますが、私は応答するのに十分な統計に精通していません。このxkcdコミックについて考えると、確かな履歴データがあっても、状況によって予測方法が変わることがあります。 提示されたこのチャートは、難民からの脅威レベルを正確に示すのに役立ちますか?このチャートを多かれ少なかれ有用にする必要な統計的コンテキストはありますか? 注:素人の言葉でそれを保つようにしてください:)

7
いくら支払う?実用的な問題
これは在宅での質問ではなく、当社が直面している本当の問題です。 ごく最近(2日前)、10000個の製品ラベルの製造をディーラーに注文しました。ディーラーは独立した人です。彼はラベルを外部から製造し、会社はディーラーに支払いをします。各ラベルの費用は会社にとって1ドルです。 昨日、ディーラーにはラベルが付属していましたが、ラベルはそれぞれ100ラベルのパケットにバンドルされていました。このように、合計100個のパケットがあり、各パケットには10​​0個のラベルが含まれていたため、合計10000個のラベルがありました。ディーラーに10000ドルの支払いを行う前に、数個のパケットをカウントして、各パケットに100個のラベルが正確に含まれるようにしました。ラベルを数えると、100ラベルに満たないパケットが見つかりました(97ラベルが見つかりました)。これが偶然ではなく意図的に行われたことを確認するために、さらに5つのパケットをカウントし、各パケット(最初のパケットを含む)で次の数のラベルを見つけました。 Packet Number Number of labels 1 97 2 98 3 96 4 100 5 95 6 97 すべてのパケットを数えることは不可能だったため、平均ベースで支払いを行うことにしました。したがって、6つのパケットのラベルの平均数は97.166であるため、合計支払い額は9716ドルでした。 統計学者がそのようなタイプの問題にどのように対処しなければならないかを知りたいだけです。 さらに、ラベル全体の実際の数を超えて支払われていないことを95%保証するために、いくら支払うべきかを知りたいと思います。 追加情報: P(100個を超えるラベルを含むパケット)= 0 P(90個未満のラベルを含むパケット)= 0 = {パケットの重みが小さいため、パケットのカウント中に90未満のラベルが簡単に検出されます} 編集: ディーラーはそのような不正行為を単に否定した。これらのディーラーは、会社が支払っている金額についてメーカーから受け取る特定のコミッションに基づいて機能していることがわかりました。メーカーに直接連絡したところ、メーカーでもディーラーの欠陥でもないことがわかりました。製造業者は、「シートのサイズが標準化されていないためラベルが短くなり、1枚のシートから何枚でも切り取ってパケットにまとめます」と述べています。 さらに、追加の情報で与えられた最初のアサーションが検証されます。これは、製造業者がシートのサイズのわずかな増加から、追加のラベルをカットできないこと、また、シートのサイズのわずかな縮小からはカットできないことを認めたためですまったく同じサイズの100個のラベル。

7
確率ではなく最大対数確率を最適化する理由
最大化する必要がある確率を定式化できるほとんどの機械学習タスクでは、いくつかのパラメーター確率の代わりに、実際に対数確率最適化します。たとえば、最尤トレーニングでは、通常対数尤度です。勾配法を使用してこれを行う場合、これには要因が含まれます。ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot \frac{\partial p}{\partial \theta} いくつかの例については、こちらまたはこちらをご覧ください。 もちろん、最適化は同等ですが、勾配は異なりますので、勾配ベースの方法は異なる動作をします(特に確率勾配法)。任意の正当性があることがある勾配がより良い作品勾配?logplog⁡p\log pppp

11
Brain Teaser:pr(head)= pのバイアスされたコインを使用して、等しい確率で7つの整数を生成する方法
これは、Glassdoorで見つけた質問です。コインを使用して、等しい確率で7つの整数をどのように生成しますか?Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) 基本的に、あなたは公平かもしれないし、そうでないかもしれないコインを持っています、そしてこれはあなたが持っている唯一の乱数生成プロセスであるので、これらの各整数を得る確率が1から7までの整数を出力する乱数ジェネレータを考え出します1/7です。 データ生成プロセスの効率が重要です。

13
連続して10頭あると、次のトスが尻尾になる可能性が高くなりますか?
私は、次が真であると仮定します。公正なコインを想定し、コインを投げながら、行の10頭を得ることが次のコイントスが尾であることの可能性を高めるません関係なく、周りに翻弄される確率および/または統計的な専門用語のどのような量、 (しゃれを許しなさい)。 そうであると仮定して、私の質問はこれです:私は一体どうやって誰かを説得するのですか? 彼らは賢くて教育を受けていますが、私はこれに関して正しいと思うかもしれないとは考えないように決心しているようです(議論)。


4
相関のある乱数を生成する方法(与えられた平均、分散、相関度)
これが少し基本的すぎるように思える場合は申し訳ありませんが、ここで理解を確認しようとしているだけだと思います。2つのステップでこれを行う必要があるという感覚が得られ、相関行列を理解しようとし始めましたが、実際には複雑に見え始めています。相関乱数を生成するための、理想的で迅速な優れた方法の簡潔な説明を(理想的には擬似コードソリューションへのヒントとともに)探しています。 既知の平均と分散を持つ2つの疑似ランダム変数の高さと重み、および特定の相関関係を考えると、この2番目のステップがどのように見えるかを基本的に理解しようとしていると思います。 height = gaussianPdf(height.mean, height.variance) weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), correlated_variance(height.variance, correlation_coefficient)) 相関平均と分散を計算するにはどうすればよいですか?しかし、ここで本当に関連する問題であることを確認したいと思います。 マトリックス操作に頼る必要がありますか?それとも、この問題に対する基本的なアプローチに何か他の非常に間違ったものがありますか?

14
ガウス(正規)分布の最も驚くべき特徴は何ですか?
の標準化されたガウス分布は、密度を明示的に指定することで定義できます。 RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} またはその特徴的な機能。 この質問で想起されたように、それはサンプル平均と分散が独立している唯一の分布でもあります。 あなたが知っているガウス尺度の他の驚くべき代替の特徴は何ですか?最も驚くべき答えを受け入れます


3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

15
少女対男児の出生率の予想数
クリティカル・シンキングのための就職面接適性テストで質問に出会いました。これは次のようなものです: Zorganian Republicには非常に奇妙な習慣があります。女性だけが家族の財産を相続できるため、カップルは女性の子供が欲しいだけです。したがって、男性の子供がいる場合は、女の子が生まれるまで子供を増やし続けます。女の子がいたら、子供を持つのをやめます。Zorganiaの女の子と男の子の比率はどのくらいですか? 私は質問作成者が与えたモデルの答えに同意しません。それは約1:1です。正当化は、出生が常に男性または女性である確率が50%であることでした。 が国内の少女の数であり、Bが少年の数である場合、より数学的な精力的な答えで納得してもらえますか?GE [ G ] :E [ B ]E[G]:E[B]\text{E}[G]:\text{E}[B]GGG

6
分布間のコルモゴロフ距離の動機
2つの確率分布がどれほど似ているかを測定する方法はたくさんあります。(異なるサークルで)人気のある方法は次のとおりです。 コルモゴロフ距離:分布関数間の距離。 Kantorovich-Rubinstein距離:リプシッツ定数を持つ関数の2つの分布に対する期待値の最大差111。これは分布関数間のL1L1L^1距離でもあります。 境界付きリプシッツ距離:KR距離に似ていますが、関数は絶対値がである必要があります111。 これらには異なる利点と欠点があります。3.の意味での収束のみが実際に分布の収束に正確に対応します。1.または2.の意味での収束は、一般にわずかに強くなります。(特に、X n = 1の場合Xn=1nXn=1nX_n=\frac{1}{n}は確率111で、は分布で0にXnXnX_n収束し000が、コルモゴロフ距離では収束しません。ただし、制限の分布が連続している場合、この病理は発生しません。) 初等確率または測度理論の観点から見ると、1はあるセットに含まれる確率を比較するため、非常に自然です。一方、より洗練された確率論的視点は、確率よりも期待に集中する傾向があります。また、機能分析の観点から、いくつかの機能空間との双対性に基づいた2または3のような距離は非常に魅力的です。 しかし、私の印象(間違っていれば私を修正してください!)は、統計では、コルモゴロフ距離が分布の類似性を測定するための通常好ましい方法であるということです。理由の1つは推測できます:分布の1つが有限のサポートで離散的である場合、特に実際のデータの分布である場合、モデル分布までのコルモゴロフ距離は計算が簡単です。(KR距離は計算がやや​​難しく、BL距離は実際的にはおそらく不可能です。) 私の質問(最終的に)は、統計的な目的でコルモゴロフ距離(またはその他の距離)を優先する他の理由(実用的または理論的)がありますか?


3
CDFはPDFよりも基本的ですか?
私の統計学教授は基本的に、次の3つのうちの1つが与えられた場合、他の2つを見つけることができると言いました。 累積分布関数 モーメント生成機能 確率密度関数 しかし、私の計量経済学の教授は、CDFはPDFよりも基本的であると言いました。なぜなら、CDFを持つことはできてもPDFが定義されていない例があるからです。 CDFはPDFよりも基本的ですか?PDFまたはMGFがCDFから派生できるかどうかを知るにはどうすればよいですか?
43 probability  pdf  cdf  mgf 

7
少なくとも一度はすべての数字を取得するために、6面のサイコロを振る必要がありますか?
私はちょうど子供とゲームをプレイしました。基本的には、6面ダイスで少なくとも1回すべての数字を振る人が勝ちます。 私は最終的に勝ちました、そして、他は1-2ターン後に終わりました。今、私は疑問に思う:ゲームの長さの期待は何ですか? 特定の数に達するまでのロール数の予想は 。∑∞n = 1n 16(56)n − 1= 6∑n=1∞n16(56)n−1=6\sum_{n=1}^\infty n\frac{1}{6}(\frac{5}{6})^{n-1}=6 ただし、2つの質問があります。 少なくとも1回すべての数字を取得するまで、6面のサイコロを何回振る必要がありますか? 4つの独立したトライアル(つまり、4人のプレイヤー)の中で、必要なロールの最大数はどうなりますか?[注:最小ではなく最大です。なぜなら、年齢では、子供のために最初にそこに着くということよりも、仕上げることのほうが重要だからです] 結果をシミュレートすることはできますが、分析的にどのように計算するのでしょうか。 Matlabでのモンテカルロシミュレーションです mx=zeros(1000000,1); for i=1:1000000, %# assume it's never going to take us >100 rolls r=randi(6,100,1); %# since R2013a, unique returns the first occurrence %# for earlier versions, take the minimum of x %# and subtract …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.