タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

3
サイズデッキから枚のカードを引くときに目に見えないカードの予想数
枚のカードのデッキがあります。そこからランダムにランダムにカードを引いて差し替えます。ドローした後、決して選択されなかったと予想されるカードの数はいくつですか?nnn2n2n2n この質問は、問題2.12のパート2です。 M. MitzenmacherおよびE. Upfal、Probability and Computing:Randomized Algorithms and Probabilistic Analysis、Cambridge University Press、2005年。 また、それが価値があることについては、これは宿題の問題ではありません。それは独学で、私は行き詰まっています。 これまでの私の答えは: レッツ後に見られる個別のカードの数も番目のドロー。次に:XiXiX_iiii E[Xi]=∑k=1nk(knP(Xi−1=k)+n−k−1nP(Xi−1=k−1))E[Xi]=∑k=1nk(knP(Xi−1=k)+n−k−1nP(Xi−1=k−1))E[X_i] = \displaystyle \sum_{k=1}^{n} k (\frac{k}{n}P(X_{i-1}=k) + \frac{n-k-1}{n} P(X_{i-1}=k-1)) ここでの考え方は、引くたびに、見たことのあるカードを引くか、見たことのないカードを引くかのいずれかであり、これを再帰的に定義できるということです。 最後に、ドロー後に何が見られなかったかという質問に対する答えは、ます。2n2n2nn−E[X2n]n−E[X2n]n-E[X_{2n}] これは正しいと思いますが、もっと簡単な解決策があるはずです。 どんな助けでも大歓迎です。

3
測定できないイベントの確率
測度理論から、測定できないイベントがあること、つまり、それらがルベーグ測定可能ではないことがわかります。確率測度が定義されていない確率を持つイベントを何と呼びますか?そのような出来事についてどのような発言をしますか?

3
良いパフォーマンスが縞模様であるかどうかはどうやってわかりますか?
ルービックキューブを趣味で解決します。いくつかのソフトウェアを使用してキューブを解くのにかかった時間を記録したので、何千もの解法からのデータが得られました。データは基本的に、各順次解決にかかった時間を表す数値の長いリストです(たとえば、22.11、20.66、21.00、18.74など)。 立方体を解くのにかかる時間は自然に解法ごとに多少異なりますので、良い解法と悪い解法があります。 「熱くなる」かどうか、良い解決策が縞になるかどうか知りたい。たとえば、いくつかの連続した良い解決があった場合、次の解決が良い可能性が高いですか? どのような分析が適切でしょうか?私はいくつかの特定のことを考えることができます。たとえば、解決をマルコフプロセスとして扱い、1つの解決が次の予測をどの程度うまく予測しているか、ランダムデータと比較して、最後の中央値より下の連続した解決の最長のストリークの長さを確認します。 100は、ランダムデータなどで予想されるものと比較しています。これらのテストがどの程度洞察力があるかはわかりません。また、この種の問題に対する十分に開発されたアプローチがあるかどうかはわかりません。

4
原子力事故の確率を組み合わせる
最近の日本での出来事から、次のことを考えさせられました。 原子力発電所は通常、重大な事故のリスクを「設計基準確率」、たとえば10E-6 /年に制限するように設計されています。これは、単一のプラントの基準です。しかし、数百基の原子炉がある場合、重大な事故の個々の確率をどのように組み合わせるのでしょうか。私はおそらくこれを自分で調査できると思いますが、このサイトを見つけたので、この質問に非常に簡単に答えられる人がいるはずです。ありがとう

1
ガウス過程/ディリクレ過程などの確率過程には密度がありますか?そうでない場合、ベイズのルールをそれらにどのように適用できますか?
ディリクレポセスとガウス過程は、しばしば「関数の分布」または「分布の分布」と呼ばれます。その場合、GPの下での関数の密度について意味のある話をすることができますか?つまり、ガウス過程またはディリクレ過程は、確率密度の概念を持っていますか? そうでない場合、関数の事前確率の概念が明確に定義されていない場合、ベイズの規則を使用して事後から前に進むにはどうすればよいでしょうか。MAPやEAPの推定値などは、ベイジアンノンパラメトリックの世界に存在しますか?どうもありがとう。

3
大規模なデータセットのガウス過程回帰
私はオンラインビデオと講義ノートからガウシアンプロセス回帰について学んでいますが、ポイントのデータセットがある場合、データはn次元の多変量ガウシアンからサンプリングされると想定しています。だから私の質問は、nが数千万の場合で、ガウスプロセス回帰はまだ機能しますか?カーネルマトリックスは巨大ではなく、プロセスは完全に非効率的になりますか?もしそうなら、データセットから何度もサンプリングするような、これに対処するためのテクニックが用意されていますか?そのような場合に対処するためのいくつかの良い方法は何ですか? んnnんnnんnn

3
場合
連続確率変数の場合はXXX、場合E(|X|)E(|X|)E(|X|)有限で、あるlimn→∞nP(|X|&gt;n)=0limn→∞nP(|X|&gt;n)=0\lim_{n\to\infty}n P(|X|>n)=0? これはインターネットで見つけた問題ですが、それが成り立つかどうかはわかりません。 nP(|X|&gt;n)&lt;E(|X|)nP(|X|&gt;n)&lt;E(|X|)n P(|X|>n)<E(|X|)がマルコフの不等式で成り立つことは知っていますが、nnnが無限大になると0になることを示すことはできません。

2
確率の頻繁な定義; 正式な定義はありますか?
頻度論者が「確率」の下で理解することの正式な(数学的な)定義はありますか?私はそれが「長期的に」の相対的な発生頻度であると読みましたが、それを定義するための正式な方法はありますか?その定義を見つけることができる既知の参考文献はありますか? 編集: 頻出者(@whuberによるコメントと、その回答の下の@Kodiologistと@Graeme Walshへの私のコメントを参照)とは、この長期的な相対頻度が存在すると「信じる」という意味です。多分これは(部分的に)@Timの質問にも答えます

3
割った法線
せとW 〜χ 2(秒)。Z〜N(0 、1 )Z∼N(0,1)Z \sim N(0,1)W〜χ2(秒)W∼χ2(s)W \sim \chi^2(s) 場合及びWは、独立して、その後分散されている変数Y = ZZZZWWWは、自由度sのt分布に従います。Y= ZW/秒√Y=ZW/sY = \frac{Z}{\sqrt{W/s}}tttsss 私はこの事実の証拠を探しています。完全な引数を書き留めたくない場合は、参照で十分です。

1
ほぼ確実な収束は完全な収束を意味するものではない
すべての場合は完全に収束すると言い。X1,X2,…X1,X2,…X_1, X_2, \ldotsXXXϵ&gt;0ϵ&gt;0\epsilon>0 ∑∞n=1P(|Xn−X|&gt;ϵ)&lt;∞∑n=1∞P(|Xn−X|&gt;ϵ)&lt;∞\sum_{n=1}^\infty \text{P}\left(|X_n-X|>\epsilon\right) <\infty ボレル・カンテッリの補題は、完全な収束がほぼ確実な収束を意味することを証明するのは簡単です。 ボレルカンテッリでは収束を証明できない場合の例を探しています。これはほぼ完全にではなく確実に収束する一連の確率変数です。

1
分散が最小の偏りのない推定量
ましょのランダムサンプルfeomこと分布G E O mはE T R I C (θ )のために0 &lt; θ &lt; 1。つまり、X1,...,XnX1,...,Xn X_1, ...,X_nGeometric(θ)Geometric(θ)Geometric(\theta)0&lt;θ&lt;10&lt;θ&lt;10<\theta<1 pθ(x)=θ(1−θ)x−1I{1,2,...}(x)pθ(x)=θ(1−θ)x−1I{1,2,...}(x)p_{\theta}(x)=\theta(1-\theta)^{x-1} I_{\{1,2,...\}}(x) g (θ )= 1の最小分散をもつ不偏推定量を求めますg(θ)=1θg(θ)=1θg(\theta)=\frac{1}{\theta} 私の試み: 幾何分布は指数族からのものであるため、統計は完全であり、θに対して十分です。また、T (X )= X 1がg (θ )の推定量である場合、偏りはありません。したがって、Rao-Blackwellの定理とLehmann-Schefféの定理により、 W (X )= E [ X 1 | ∑ X i ] は、私たちが探している推定量です。∑Xi∑Xi\sum X_i θθ \thetaT(X)=X1T(X)=X1T(X)=X_1g(θ)g(θ)g(\theta)W(X)=E[X1|∑Xi]W(X)=E[X1|∑Xi]W(X) = E[X_1|\sum X_i] 次のものがあります。 …

3
同じ母集団の複数のサンプリングからの交差の確率
次に例を示します。 人口は10,000アイテムです。各アイテムには一意のIDがあります。 100個のアイテムをランダムに選び、IDを記録します 100アイテムを人口に戻しました 私は再びランダムに100アイテムを選び、IDを記録して置き換えます。 合計で、このランダムサンプリングを5回繰り返します 個のアイテムが5つのランダムサンプリングすべてに現れる確率はどのくらいですか?XXX 私は統計に精通していません。場合、これは正しいでしょうか?X=10X=10X = 10 各サンプリングのために、10,000〜100個のアイテムの可能な組み合わせの数は、binom(10000,100)binom(10000,100){\rm binom}(10000, 100) 100個のアイテムのすべての可能な組み合わせのうち、の組み合わせが10個の特定の項目を含みますbinom(9990,90)∗binom(100,10)binom(9990,90)∗binom(100,10){\rm binom}(9990, 90) * {\rm binom}(100, 10) 10個の特定のアイテムを有する確率である(binom(9990,90)∗binom(100,10))/binom(10000,100)(binom(9990,90)∗binom(100,10))/binom(10000,100)({\rm binom}(9990, 90) * {\rm binom}(100, 10)) / {\rm binom}(10000, 100) 計算された5の累乗の確率は、5つの独立したサンプリングを表します。 つまり、基本的には5つの独立した超幾何確率を計算し、それらを掛け合わせるだけなのでしょうか。足元が足りないような気がします。

1
置き換えて描画する場合の予想される重複(3重など)の数
次の問題があります。 100個のアイテム(n)があり、そのうち43個(m)を一度に1つずつ選択します(置き換えあり)。 予想される一意の数(一度だけ選択、k = 1)、倍精度(正確に2回k = 2選択)、三重(正確にk = 3)、四角などを解決する必要があります。 少なくとも1つのダブル(誕生日のパラドックス)が存在する確率については多くの結果を見つけることができましたが、母集団のペアの予想数については見つかりませんでした。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
サンプルの自己共分散関数に関する質問
私は時系列分析の本を読んでおり、サンプルの自己共分散の式は本で次のように定義されています。 γˆ(h )= n− 1Σt = 1n − h(xt + h− x¯)(xt− x¯)γ^(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)\widehat{\gamma}(h) = n^{-1}\displaystyle\sum_{t=1}^{n-h}(x_{t+h}-\bar{x})(x_t-\bar{x}) 用。は平均です。γˆ(− h )= γˆ(h )γ^(−h)=γ^(h)\widehat{\gamma}(-h) = \widehat{\gamma}(h)\;ˉ XH = 0 、1 、。。。、n − 1h=0,1,...,n−1\;h = 0,1, ..., n-1バツ¯x¯\bar{x} 合計をではなく除算する理由を誰かが直感的に説明できますか?この本は、これは上記の式が非負定関数であるためであると説明しているため、で除算することが推奨されますが、これは私にはわかりません。誰かがこれを証明したり、例を示したりできますか?n − h nんnnn − hn−hn-hんnn 私にとって最初は直感的に除算することになります。これは、自己共分散の不偏または偏りのある推定量ですか?n−hn−hn-h

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.