統計とビッグデータ probability

2

私は現在、ハッカーの確率的プログラミングとベイジアン手法の「本」を読んでいます。私はいくつかの章を読み、最初の章について考えていました。pymcの最初の例は、テキストメッセージ内の魔女の検出で構成されています。この例では、スイッチポイントが発生していることを示すランダム変数が示されています。MCMCステップの後、事後分布が与えられます。τττ\tauττ\tau まず、このグラフからわかることは、スイッチポイントが45日目に発生した確率はほぼ50％であるということです。スイッチポイントがない場合はどうなりますか？スイッチポイントがあると想定してそれを見つけようとするのではなく、実際にスイッチポイントがあるかどうかを検出したいと思います。著者は、「スイッチポイントが発生したのか」という質問に「変化がなかった場合、または時間の経過とともに変化が緩やかだった場合、事後分布はより広がっていただろう」と回答しています。しかし、どのように適切な方法でこれに答えることができますか。たとえば、スイッチポイントが発生した確率は90％であり、45日目に発生した確率は50％です。ττ\tau モデルを変更する必要がありますか？または、これは現在のモデルで答えることができますか？

9 probability mcmc pymc change-point

1

モーメントが存在しない場合のCLTの例

考慮してくださいXn=⎧⎩⎨1−12kw.p. (1−2−n)/2w.p. (1−2−n)/2w.p. 2−k for k>nXn={1w.p. (1−2−n)/2−1w.p. (1−2−n)/22kw.p. 2−k for k>nX_n = \begin{cases} 1 & \text{w.p. } (1 - 2^{-n})/2\\ -1 & \text{w.p. } (1 - 2^{-n})/2\\ 2^k & \text{w.p. } 2^{-k} \text{ for } k > n\\ \end{cases} これには無限のモーメントがあるにもかかわらず、あることを示す必要がありn−−√(X¯n)→dN(0,1)n(X¯n)→dN(0,1)\sqrt{n}(\bar{X}_n) \overset{d}{\to} N(0,1) 私は、リービーの連続性定理を使用してこれを表示しようとしました。つまり、左側の特性関数が標準法線の特性関数に収束することを示してみました。しかし、これを示すのは不可能のようでした。この問題に対するヒントは、各を切り捨てることでした。つまり、とし、リンデバーグ条件を使用して、。XiXiX_iYni=XiI{Xi≤n}Yni=XiI{Xi≤n}Y_{ni} = X_i I\{X_i \leq n\}n−−√Y¯n→dN(0,1)nY¯n→dN(0,1)\sqrt{n} \bar{Y}_n …

9 probability self-study central-limit-theorem moments asymptotics

1

置き換えなしのK数の合計の期待

数値が与えられ、各数値の値が異なる場合、として示され各数値を選択する確率はそれぞれです。nnnv1,v2,...,vnv1,v2,...,vnv_1, v_2, ..., v_np1,p2,...,pnp1,p2,...,pnp_1, p_2, ..., p_n ここで、与えられた確率に基づいて個の数値を選択すると、、それらの個の数値の合計の期待値はどうなりますか？番号が重複する番号を含むことができないように、選択は置換なしであることに注意してください。選択が置換である場合、数の合計の期待値はに等しく、ここでKKKK≤nK≤nK \leq nKKKKKKKKKK×E(V)K×E(V)K \times E(V)E(V)=v1×p1+v2×p2+...+vn×pn.E(V)=v1×p1+v2×p2+...+vn×pn.E(V) = v_1 \times p_1 + v_2 \times p_2 + ... + v_n \times p_n. さらに、それらの数の分散の期待についてはどうですか？KKK 私はビッグデータの問題に取り組んでいるCS博士課程の学生で、統計の経歴はありません。誰かが答えとして式を教えてくれることを期待しています。ただし、答えが複雑すぎて式で記述できない場合や、集中的な計算が必要な場合は、おおよその答えで十分です。ここではかなり大きいと想定でき、確率は大きく変動する可能性があります。実際には、これらの確率の値は、一連の集計クエリを記録するクエリログから取得されます。重要なのは、クエリに含まれる各数値の頻度がかなり歪んでいる可能性があることです。つまり、クエリがほとんど行われないこともあれば、頻繁にクエリが行われることもあります。確率分布は正規分布、zipf分布、またはその他の妥当な代替であると想定できます。nnn 値の分布は、可能な分布の連続したサブセットにすぎません。つまり、特定の分布を表すヒストグラムがある場合、この問題に関係するすべての数値は、1つのバケット内のすべての数値です。 Kの値に関しては、頻繁に照会される要素の数よりも常に少ないと想定できます。

9 probability

2

IIDランダム変数の和の商の期待（ケンブリッジ大学ワークシート）

基本的な確率についての適切な知識が必要なインタビューを準備しています（少なくともインタビュー自体を通過するため）。学生時代から下のシートを改訂して作業しています。ほとんど簡単ですが、質問12で完全に困惑しています。 http://www.trin.cam.ac.uk/dpk10/IA/exsheet2.pdf 任意の助けいただければ幸いです。編集：質問は：がおよびある独立して同一に分布する正の確率変数であると仮定します。ましょう。示すことがとき、および場合。X1,X2,...X1,X2,...X_1, X_2, ... E(X1)=μ<∞E(X1)=μ<∞\mathbb{E}(X_1) = \mu < \inftyE(X−11)<∞E(X1−1)<∞\mathbb{E}(X_1^{-1}) < \inftySn=∑ni=1XiSn=∑i=1nXiS_n = \sum_{i=1}^n X_iE(Sm/Sn)=m/nE(Sm/Sn)=m/n\mathbb{E}(S_m/S_n) = m/nm<=nm<=nm<=nE(Sm/Sn)=1+(m−n)μE(S−1n))E(Sm/Sn)=1+(m−n)μE(Sn−1))\mathbb{E}(S_m/S_n) = 1 + (m-n)\mu\mathbb{E}(S_n^{-1}))m>=nm>=nm>=n 実際、これをタイプする過程で、私は2番目の部分を解決しました。以下のための、m>=nm>=nm>=nE(Sm/Sn)=E(X1+...+Xm)/E(X1+...+Xn)E(Sm/Sn)=E(X1+...+Xm)/E(X1+...+Xn)\mathbb{E}(S_m/S_n) = \mathbb{E}(X_1+ . . . +X_m)/\mathbb{E}(X_1+ . . . +X_n) =E(1+(Xn+1+...+Xm)/(X1+...+Xn))=E(1+(Xn+1+...+Xm)/(X1+...+Xn))=\mathbb{E}(1 + (X_{n+1} + ... + X_m)/(X_1 + ... + X_n)) 上記の比率の分子と分母は明らかに独立しているので、 =1+E(Xn+1+...+Xm)E(S−1n)=1+E(Xn+1+...+Xm)E(Sn−1) = 1 …

9 probability self-study random-variable

2

統計学における3つの開かれた哲学的問題

私は最近、統計の歴史についての楽しい本であるThe Lady Tasting Teaを読み終えました。この本の最後に、著者のデビッド・サルスバーグは、統計学における3つのオープンな哲学的問題を提唱しています。これらの問題について聞いたことがなかったので、他の人の反応に興味があります。私はほとんど知識のない領域に冒険しているので、これらの問題に関するサルスバーグの描写を説明し、これらの問題について以下の2つの一般的な質問を提示します。 Salsburgの哲学的問題は次のとおりです。統計モデルを使用して意思決定を行うことはできますか？現実の生活に適用した場合の確率の意味は何ですか？人々は本当に確率を理解していますか？統計と意思決定質問1で提示された問題の例として、Salsburgは次のパラドックスを提示しています。番号の付いていないチケットを10000枚使って宝くじを整理するとします。確率を使用して、たとえば.001の確率を下回るチケットのこの仮説を拒否することにより、特定のチケットが宝くじに当たるかどうかを決定すると、宝くじのすべてのチケットの当選チケットの仮説が拒否されます。 Salsburgはこの例を使用して、確率理論は現在理解されているため、論理が確率理論と一致しておらず、したがって、現在、統計を統合する適切な手段がありません（現在の形式では、確率論）意思決定の論理的手段を使用します。確率の意味数学の抽象化として、Salsburgは確率がうまく機能すると主張しますが、結果を実際の生活に適用しようとすると、確率が実際の生活では具体的な意味を持たないという問題に遭遇します。より具体的には、明日には95％の確率で雨が降ると言う場合、95％がどのエンティティに適用されるかは不明です。雨に関する知識を得るために実行できる一連の実験に適用されますか？外に出て濡れる可能性のある人々に適用されますか？Salsburgは、確率を解釈する手段がないと、確率に基づく統計モデル（つまり、それらのほとんど）に問題が生じると主張しています。人々は確率を理解していますか？ Salsburgは、確率を解釈する具体的な手段がないという問題を解決する1つの試みは、Jimmie SavageとBruno de Finettiによって提案された「個人確率」の概念によると主張している確率を将来の出来事の可能性についての個人的な信念として理解しています。ただし、個人の確率が確率の首尾一貫した基礎を提供するためには、人々は確率が何であるかについての共通の理解と、確率についての結論を引き出すための証拠を使用する共通の手段を持っている必要があります。残念ながら、カーネマンとトヴェルスキーが生み出したような証拠は、個人的な信念が確率の首尾一貫した根拠を作成するための難しい根拠である可能性があることを示唆しています。Salsburgは、確率を信念としてモデル化する統計的手法（おそらく、ベイジアン手法などですか？ここで知識を広げています）がこの問題に対処する必要があることを示唆しています。私の質問 Salsburgの問題は、現代の統計にとって本当にどの程度問題ですか？これらの問題の解決策を見つけるために何か進歩はありましたか？

9 probability

1

時系列予測パフォーマンスの評価

いくつかの時間変数でトレーニングされた動的単純ベイズモデルがあります。モデルの出力はの予測でありP(Event) @ t+1、それぞれで推定されますt。 P(Event)対のプロットtimeは、次の図に示すとおりです。この図では、黒い線P(Event)が私のモデルで予測されたものを表しています。水平な赤い線は、イベント出来事の事前確率を表します。縦の点線は、時系列での（5つの）イベント発生を表します。理想的には、P(Event)イベントを観察する前に予測ピークを確認し、イベントの見込みがない場合はゼロに近いままにしたいです。イベントの発生を予測する上で、モデル（黒い線）のパフォーマンスを報告できるようにしたいと思います。私のモデルと比較する明らかな候補は、イベントの事前確率（赤い線）です。これは、予測子として使用した場合、すべてに対して同じ確率値を予測しますt。この比較を達成するための最良の正式な方法は何ですか？ PS：私は現在、以下にコード化されている（直感的な）スコアリングを使用しています。スコアが全体的に低いほど、予測パフォーマンスが良いことを示しています。このスコアリングで以前のものを倒すのは実際にはかなり難しいことがわかりました： # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score = 1- prob_prediction[t]; cur_prior_score = 1 - prior else: # no event cur_model_score = prob_prediction[t] - 0; cur_prior_score = prior - 0; model_score …

9 time-series probability prediction model-comparison model-evaluation

2

均一な事前分布は、最大尤度と事後モードから同じ推定にどのようにつながりますか？

私はさまざまなポイント推定方法を研究していて、MAPとMLの推定を使用する場合、「均一な事前分布」を使用する場合、推定は同一であることを読みました。誰かが「均一」事前分布とは何かを説明し、MAP推定値とML推定値が同じになる場合のいくつかの（単純な）例を示すことができますか？

9 machine-learning probability bayesian estimation maximum-likelihood

3

Rademacher確率変数の積の合計

してみましょう値取って独立な確率変数であるまたは確率0.5それぞれで。合計ます。確率を上限にしたいと思います。私が今持っている最高の境界はで、cは普遍定数です。これは、単純なチャーノフ境界を適用することにより、確率Pr（| x_1 + \ dots + x_n | <\ sqrt {t}）およびPr（| y_1 + \ dots + y_n | <\ sqrt {t}）の下限を設定することで実現されます。この限界よりもはるかに優れたものを手に入れたいと思いますか？まず第一に、私は少なくとも得ることができますx1…xa,y1…ybx1…xa,y1…ybx_1 \ldots x_a,y_1 \ldots y_b+1+1+1−1−1-1S=∑i,jxi×yjS=∑i,jxi×yjS = \sum_{i,j} x_i\times y_jP(|S|>t)P(|S|>t)P(|S| > t)2e−ctmax(a,b)2e−ctmax(a,b)2e^{-\frac{ct}{\max(a,b)}}cccPr(|x1+⋯+xn|<t√)Pr(|x1+⋯+xn|<t)Pr(|x_1 + \dots + x_n|<\sqrt{t})Pr(|y1+⋯+yn|<t√)Pr(|y1+⋯+yn|<t)Pr(|y_1 + \dots + y_n|<\sqrt{t})e−ctab√e−ctabe^{-c\frac{t}{\sqrt{ab}}}。サブガウステールを取得できる場合、おそらくそれが最善ですが、それは期待できますか（そうは思わないが、引数について考えることはできません）。

9 probability random-variable bernoulli-distribution

2

ポアソン分布への適合度

観測された確率変数のポアソン分布への適合度を測定するためのよく知られた統計的検定のいくつかは何ですか？コルモゴロフ-スミルノフ検定がその1つであることは知っていますが、他にもありますか

9 probability poisson-distribution goodness-of-fit

1

これは、ベイズの定理を使用して確率を継続的に更新する正しい方法ですか？

私が誰かの好きなアイスクリームのフレーバーがバニラである可能性を見つけようとしているとしましょう。私はその人がホラー映画も楽しんでいることを知っています。ホラー映画を楽しんでいる人にとって、お気に入りのアイスクリームがバニラである確率を知りたいのです。私は次のことを知っています。 5 ％5%5\%の人々は、バニラを好きなアイスクリームの味として選んでいます。（これは私の）P（A ）P(A)P(A) 10 ％10%10\%バニラアイスクリームが好きな人のもホラー映画が大好きです。（これは私の）P（B | A ）P(B|A)P(B|A) 1 ％1%1\%バニラアイスクリームが好きではない人のもホラー映画を愛しています（これは私の）P（B | ¬ A ）P(B|¬A)P(B|\lnot A) だから、私はこのようにそれを計算する：私は発見（最も近い1万分の1に四捨五入）。ホラー映画ファンのお気に入りのアイスクリーム味がバニラである可能性はです。 P（A|B）=0.344834.48％P（A | B ）= 0.05 × 0.1（0.05 × 0.1 ）+ （0.01 × （1 − 0.05 ））P(A|B)=0.05×0.1(0.05×0.1)+(0.01×(1−0.05))P(A|B)=\frac{0.05\times0.1}{(0.05 \times 0.1)+(0.01 \times(1-0.05))}P（A | B ）= 0.3448P（あ|B）=0.3448P(A|B) = 0.344834.48 ％34.48％34.48\% しかし、その人が過去30日間にホラー映画を見たことがわかります。これが私が知っていることです： 34.48 ％34.48％34.48\%は、バニラがその人のお気に入りのアイスクリーム味である更新された事後確率です。この次の問題ではです。P（A …

9 probability bayes

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

「

短い質問：なぜこれが本当なのですか？長い質問：非常に単純に、私はこの最初の方程式を正当化するものを理解しようとしています。私が読んでいる本の著者（必要な場合はここに示しますが、必須ではありません）は次のように主張しています。ガウスに近いという仮定のため、次のように書くことができます。 p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) ここで、p0(ξ)p0(ξ)p_0(\xi)は、一連の期待値（単純な数）のみを観察した場合に、最大エントロピーを持つ観察データのPDFです。。。nci,i=1...nci,i=1...nc_i, i = 1 ... n、ここでci=E{Gi(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}、およびϕ(ξ)ϕ(ξ)\phi(\xi)は、標準化されたガウス変数、つまり平均0、単位分散のPDFです。このすべてが起こっているのは、PDF、単純化するための出発点として上記の方程式を使用することであり、私は彼がどのようにそれを行うかを取得しますが、私は彼が上記の方程式を正当化する方法を取得しません。出発点。p0(ξ)p0(ξ)p_0(\xi) 私は、誰も難読化しないように簡潔にするよう努めましたが、詳細が必要な場合はコメントでお知らせください。ありがとう！

9 probability normal-distribution entropy maximum-entropy

2

完全条件付き確率とは何ですか？

条件付き確率分布とは何か知っています。しかし、完全な条件付き確率とは何ですか？

9 probability conditional-probability

1

母集団をどのようにサンプリングするかは重要ですか？

私は無数のビー玉を含むよく混ぜられたバットを持っています。そこビー玉の無限の量がバットであるが、彼らは唯一のいくつかの未知で来るが、有限数の品種： kは不明であり、i ≠ jの場合、v iタイプの大理石を描く方がv jタイプの大理石を描くよりも可能性が高いかもしれません。V= { v1、v2、v３、。。。、vk}V={v1,v2,v3,...,vk}\mathcal{V} = \{v_{1},v_{2},v_{3},...,v_{k}\} kkki≠ji≠ji\neq jviviv_ivjvjv_j 実験では、機械が未知の手順を使用してバットをサンプリングします。機械は、設定された報告記述Q ≤ k個のサンプルから大理石の品種： X ⊆ Vを、XXXq≤kq≤kq\leq kX⊆V;|X|=qX⊆V;|X|=q X \subseteq \mathcal{V}; \quad |X|=q この実験の試験が繰り返される（試験を横切って固定されている）、我々は、サブセットのシーケンスを取得Vを、（X 1、X 2、... ）。qqqVV\mathcal{V}(X1,X2,…)(X1,X2,…)(X_1,X_2,\dots) 私たちが知っている他の唯一のものは：試験は独立しており、同一ですマシンは、そのサンプルで最も頻繁に発生する品種の上位報告しますqqq qqqqqq (X1,X2,…)(X1,X2,…)(X_1,X_2,\dots)

9 probability population

1

文字列の長さと可能な文字に基づく簡単な組み合わせ/確率の質問

「完全なランダム性」を想定し、各文字が62の可能な文字の1つである可能性がある20文字の長さの文字列が与えられた場合：可能な組み合わせの総数はいくつですか？（20の62乗を推測します。）また、新しい文字列が次々とランダムに選択され、これまでに選択された文字列のリストに追加された場合、すでに選択されている文字列を選択する機会が1-in-100000（）？10−510−510^{-5} 注： 62の由来は、数字（0-9）、大文字（AZ）、および小文字（az）です。

9 probability combinatorics

タグ付けされた質問 「probability」

タグ付けされた質問「probability」