タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

2
カイ二乗から正規分布への変換
標準正規分布とカイ2乗分布の関係はよく知られています。でも、 から標準正規分布に戻る変換はあるのでしょうか。χ2(1)χ2(1)\chi^2 (1) その範囲は正の数値のみであるため、平方根変換が機能しないことが簡単にわかります。結果の分布は、折りたたまれた正規分布と呼ばれていると思います。ここで機能する巧妙なトリックはありますか?

1
昔ながらのモンテカルロでの複数のシミュレーションの利点は?
この質問の精神は、「古き良きモンテカルロ」としても知られる「普通のモンテカルロ」から来ています。 ランダム変数としますXXX μ:=E[X]σ2:=Var[X]μ:=E[X]σ2:=Var[X]\mu := E[X]\\ \sigma^2:=Var[X] 確率分布関数が不明であるため(または計算が扱いにくいため)、どちらも不明な値です。XXX いずれにせよ、の分布から何らかの形で回の描画(これらは独立しており、まったく同じように分布しています)をシミュレート できるとします。サンプルパラメータを定義しましょうnnnX1,X2,…,XnX1,X2,…,XnX_1,X_2,\dots,X_nXXX μ^n:=1n∑i=1nXiσ^2n:=1n∑i=1n(Xi−μ^n)2μ^n:=1n∑i=1nXiσ^n2:=1n∑i=1n(Xi−μ^n)2 \hat{\mu}_n := \frac{1}{n}\sum_{i=1}^{n}X_i\\ \hat{\sigma}_n^2 : = \frac{1}{n}\sum_{i=1}^{n}(X_i-\hat{\mu}_n)^2 中心極限定理によれば、が非常に大きくなると、サンプル平均は正規分布に厳密に従いますnnnμ^nμ^n\hat{\mu}_n μ^∼N(μ,σ2n)μ^∼N(μ,σ2n) \hat{\mu} \sim N(\mu,\frac{\sigma^2}{n}) 信頼区間を計算する前に、著者はわからないので概算、またはより正確には不偏推定について、そしてそこから標準的な手法を使用して先に進むことができます。σ2σ2\sigma^2σ2≈σ^2σ2≈σ^2\sigma^2 \approx \hat{\sigma}^2σ2≈nn−1σ^2σ2≈nn−1σ^2\sigma^2 \approx \frac{n}{n-1}\hat{\sigma}^2 さて、作者はの重要性を十分に述べていますが(シミュレーションごとの描画の数)、シミュレーションの数とその信頼性への影響については触れられていません。nnn いくつかのサンプル平均を得るためにシミュレーションを実行する(毎回回の描画を実行する)利点はありますか?、そして平均の平均を使用して、未知のに関する推定と信頼性を向上させますか?kkknnnμ^n,1,μ^n,2,…μ^n,kμ^n,1,μ^n,2,…μ^n,k\hat{\mu}_{n,1}, \hat{\mu}_{n,2}, \dots \hat{\mu}_{n,k}μ,σμ,σ\mu,\sigmaXXX または、が十分に大きい限り、1回のシミュレーションでからサンプルを描画するだけで十分ですか?nnnXXXnnn

1
特性関数から密度を見つける方法は?
分布には特徴的な機能があります ϕ(t)=(1−t2/2)exp(−t2/4), −∞<t<∞ϕ(t)=(1−t2/2)exp⁡(−t2/4), −∞<t<∞\phi(t) = (1-t^2/2)\exp(-t^2/4),\ -\infty \lt t \lt \infty 分布が完全に連続であることを示し、分布の密度関数を記述します。 試み: ∫∞- ∞| (1− t2/ 2)exp(− t2/ 4) | dt = (− 2 / t )(1 − t2/ 2)exp(− t2/ 4)−2exp(− t2/ 4) |0- ∞∫−∞∞|(1−t2/2)exp⁡(−t2/4)|dt=(−2/t)(1−t2/2)exp⁡(−t2/4)−2exp⁡(−t2/4)|−∞0\int_{-\infty}^{\infty}|(1-t^2/2)\exp(-t^2/4)|dt =(-2/t)(1-t^2/2)\exp(-t^2/4)-2\exp(-t^2/4)|_{-\infty}^{0} 以下のための同様の結果以来トンが乗されます。t[ 0 、∞ ][0,∞][0,\infty]ttt 積分が正しく行われたかどうかはよくわかりませんが、\ phi(t)の絶対値が\ inftyϕ (t )ϕ(t)\phi(t)より小さいことを示すことができれば、関数は完全に連続です。∞∞\infty

1
可能性と確率
私はと困難持っている尤度を。ベイズの定理を理解しています p(A|B,H)=p(B|A,H)p(A|H)p(B|H)p(A|B,H)=p(B|A,H)p(A|H)p(B|H)p(A|B, \mathcal{H}) = \frac{p(B|A, \mathcal{H}) p(A|\mathcal{H})}{p(B|\mathcal{H})} これは、直接適用することから推定することができるp(A,B)=p(B)⋅p(A|B)=p(A)p(B|A)=p(B,A)p(A,B)=p(B)⋅p(A|B)=p(A)p(B|A)=p(B,A)p(A,B) = p(B) \cdot p(A|B) = p (A) p(B|A) = p(B,A)。したがって、私の解釈では、p(⋅)p(⋅)p(\cdot)ベイズの定理の関数は、どういうわけか限界または条件付きのすべての確率です。だから私は実際には、可能性を概念としての方が逆確率のより頻繁な見方だと思っていました。 しかし、私は今、可能性は確率分布ではないというベイズ主義者の本の発言を繰り返し見ました。昨日マッケイの本を読んで、私は次の声明につまずいた 「[...]尤度と確率という用語は同義語ではないことに注意することが重要です。数量P(nb|u,N)P(nb|u,N)P(n_b|u,N)は、nBnBn_Bと両方の関数uuuです。固定uuu場合、P(nb|u,N)P(nb|u,N)P(n_b|u,N)は、超える確率を定義します。nBnBn_B固定されたnBnBn_B場合、P(nB|u,N)P(nB|u,N)P(n_B|u,N)はの尤度を定義しuuuます。 次のように私はこれを理解する:p(A|B)p(A|B)p(A|B)の確率でAAA所与下BBB従って、機能probability:A→[0,1]probability:A→[0,1]\text{probability} : \mathcal{A}\to [0,1]。しかし、与えられた値を考慮∈ Aをし、評価のpを(Aは= | B ) 'は異なる上の依存B ∈ Bが '私たちは実際には異なる機能を使用しているよL :B → [ 0 、a∈Aa∈Aa \in Ap(A=a|B)p(A=a|B)p(A=a|B)b∈Bb∈Bb\in\mathcal{B}L:B→[0,1]L:B→[0,1]L : \mathcal{B}\to[0,1]。 この解釈は正しいですか? 最尤法は、事前分布が一定になるように選択されているベイズの定理によって動機付けられると言えるでしょうか。

1
ゾンビの確率パズル[終了]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 9か月前に閉鎖。 ゾンビについて簡単なゲームを書くことを考えています。ゾンビになるべき人の数を計算しようとして動けなくなった。 私の状況は次のとおり です。700人の小さな田舎町があります。一晩で200体のゾンビが町にやってきます。各ゾンビには、1人の人間が感染して新しいゾンビになる50%の確率で、1日あたり30%の単一の接触確率があります。1日目、2日目、3日目に何人がゾンビになりますか? 町の人の数に応じて感染の可能性を活用することにしました。人が多ければ多いほど、接触の可能性は低くなります(物議を醸すように見えるかもしれませんが、そうなる可能性があります)。だから、(200/700)*0.3=0.086または8.6%偶然に連絡してください。それから私は、1人のゾンビが8.6%1人の人間に感染する可能性があると思い始めました。1日の間、200人あたり200回の試行しかありません。感染の確率が99.9%で、60のように見える試行回数を見つけようとしました。その後、約60 700/60=11.6人に1人の人間が感染することになります。つまり、1日あたりの人です。私は統計の背景がないので、私はおそらく間違っています、誰かが私を助けてくれるといいですね。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
最尤コインパラメーター推定の期待値
コインを回投げるときに、コインパラメーター最尤推定値を計算したいコイントス実験があるとします。二項尤度関数の導関数計算した後、P ^ X(1-P)^ {NX} {Xを選択\ n}はL(p)を=、Iは最適値取得pがあると、P ^ {*} = \ FRAC {x} {n}、xは成功の数です。pppnnnL(p)=(nx)px(1−p)n−xL(p)=(nx)px(1−p)n−x L(p) = { n \choose x } p^x (1-p)^{n-x} p ∗ = xppp xp∗=xnp∗=xnp^{*} = \frac{x}{n}xxx 私の質問は次のとおりです。 このpの最尤推定の期待値/分散をどのように計算しpppますか? L(p ^ {*})の期待値/分散を計算する必要がありL(p∗)L(p∗)L(p^{*})ますか? はいの場合、どうすればよいですか?

3
連続確率変数のため、なぜ
私の教科書はこれを「メモ」という見出しの付いたサイドボックスに入れ、その理由を説明していません。この声明がなぜ当てはまるのか教えてください。 P(a&lt;Z&lt;b)=P(a≤Z&lt;b)=P(a&lt;Z≤b)=P(a≤Z≤b)P(a&lt;Z&lt;b)=P(a≤Z&lt;b)=P(a&lt;Z≤b)=P(a≤Z≤b)P(a < Z < b) = P(a \leq Z < b) = P(a < Z \leq b) = P(a \leq Z \leq b)

1
ディリクレ分布から確率ベクトルをサンプリングするとはどういう意味ですか?
私は本質的に潜在ディリクレ配分について学んでいます。:私はここのビデオを見ているhttp://videolectures.net/mlss09uk_blei_tm/彼が分布からのサンプリングに説明し始めたとき分45時と立ち往生。 また、ディリケルト分布の詳細な紹介がない機械学習の本を調べてみました。私が読んでいる本では、ディリクレ分布から「確率ベクトル」をサンプリングする例を述べていましたが、それはどういう意味ですか? 分布からのサンプリングは、分布に従って確率変数のランダム値を取得することとして理解しています。したがって、p_X、Y(x、y)であるが、任意の分布のpmfであるとすると、この分布からのサンプリングは、ランダム(x、y)(つまり、xとyのランダム値)を取得することを意味します。イベントを取得する確率(X = x AND Y = y)を取得するために、分布のpmfを評価します...したがって、1つの数値のみを取得します。しかし、ここでは「確率ベクトル」とは何ですか! その本のスクリーンショットを添付しました。私はあなたが助けることができることを本当に望みます!

1
ロジスティック回帰の確率
私はRでロジスティック回帰モデルを作成しましたが、結果はある程度満足できるように見えますが、対処できない質問が1つあります。私のアプローチがまったく正しいかどうかはわかりません。 私は、ロジスティックモデルの全体的な目的がバイナリ確率変数の成功確率を予測することであることを知っています。同じロジスティックモデルから、特定の比率の確率を知ることは可能ですか?たとえば、学校に入学する確率を計算することに関心があり、その確率を推定するためにロジスティック回帰を使用するとします。これは、いくつかの独立変数に明らかに依存します。私の質問は同じモデルですが、その特定の学校に入学する学生の割合を推定することは可能ですか? 私はそれを答えるために二項確率を使用しようとしましたが、何らかの理由でそれは私に正しい答えを与えません。どうやってそれをやりましたか。成功の確率がわかっている場合は、従属変数がパラメーターNとPの二項分布に従うこともわかります。ここで、Nは試行回数、Pはロジスティックモデルから推定できる成功の確率です。したがって、比率がpと等しいかそれより低い確率が必要な場合、これは、N回の試行で成功確率がPであるN * p成功またはそれ以下の確率に等しいと考えました。 PS私は成功の確率が全体的な比率/比率であることを知っていますが、私が興味を持っているのは、特定のグループの確率を見つけることです。グループの特性をモデルに含めることができますが、私の場合はそれで制限されます。実際、私は特定のグループの成功よりも、ロジスティックモデルから比率の確率を見つけることに関心があります。 ありがとう

2
同じデータに適用された異なる統計的検定からのp値を組み合わせる
質問のタイトルは取るに足らないように見えますが、同様のデータセットで同じ統計的検定を適用して、完全帰無仮説(メタ分析)に対して検定するという問題とは異なるという意味では、それほど簡単ではないことを説明したいと思います。たとえば、p値を組み合わせるためにフィッシャーの方法を使用します)。私が探しているのは、2つの異なる統計検定(t検定とu検定など)のp値を組み合わせる方法(存在する場合、および質問が統計的に有効である場合)です。 2つの母集団からの2つのサンプリングの中心を比較するために適用されます。これまでのところ、明確な答えがなくても、ウェブで多くの検索を行ってきました。私が見つけた最良の答えは、David Bickel(http://arxiv.org/pdf/1111.6174.pdf)によるゲーム理論の概念に基づいていました。 非常に単純な解決策は、投票方式です。観測の2つのベクトルとあり、いくつかのtのような統計(t検定、 u-test、one-way ANOVA)は、2つの過酷な分布の中心(平均、中央値など)が有意水準0.05で等しくないという仮説に対して等しいという仮説を検定します。5つのテストを実行するとします。5つのテストのうち3つでp値が0.05未満の場合、null分布を拒否する十分な証拠があると言うのは正当でしょうか?B = [ B 1、B 2、。。。、b n ]A=[a1,a2,...,an]A=[a1,a2,...,an]A=[a_1, a_2, ..., a_n]B=[b1,b2,...,bn]B=[b1,b2,...,bn]B=[b_1, b_2, ..., b_n] 別の解決策は、全確率の法則を使用することでしょうか、これは完全に間違っていますか?たとえば、がnull分布が拒否されるイベントであるとします。次に、3つのテスト、、(つまり、、可能な値はなります、ここでは、null分布がテストし。T 1 T 2 T 3 P (T 1)= P (T 2)= P (T 3)= 1 / 3 P (A )P (A )= P (A | T 1)P (T 1)+ P …

3
一貫性に必要な十分な条件の反例
推定量がthetaの不偏推定量であり、nが無限大になる傾向があるため、その分散が0になる傾向がある場合、それはthetaの一貫した推定量であることがわかります。しかし、これは十分であり、必要条件ではありません。一貫しているが、nが無限大になる傾向があるため、分散が0になる傾向のない推定量の例を探しています。助言がありますか?

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
なぜ、二重確率行列Pを持つ有限の既約で非周期的なマルコフ連鎖が一様な制限分布を持つのですか?
定理は、「有限状態空間Sの既約マルコフ連鎖の遷移行列が二重確率的である場合、その(一意の)不変測度はSにわたって均一です」です。 マルコフ連鎖に二重確率遷移行列がある場合、その制限確率が一様分布を構成することを読みましたが、その理由はよくわかりません。 私はこれを理解できる証拠を考え出して見つけようとしています。しかし、ここでの命題15.5のように、理解できない細部にわたってすべての光沢を見つけた証拠([1、... 1]ベクトルを使用するだけでうまくいくのはなぜですか?)シンプル/詳細な証明? (学校で提出するものの一部ではありませんが、受講するコースの一部なので、どちらの場合も宿題のタグを付けると思います。)

1
3人が連続して誕生日を迎える確率はどれくらいですか?
誰かが彼女の友人の3人の誕生日が連続している(11月10、11、12など)ことを話し、私はランダムに選択された3人が誕生日をランダムに分配され、サンプルの2人の誕生日は独立しています。私の答え: = possible arrangement of consecutive birthdays / possible arrangements all birthdays = 365 / 365^3 = 0.0000075 それは正しく聞こえますか?それとも何か不足していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.