統計とビッグデータ probability

1

これが学生からもたらされた面白い問題です。もともとは、定期的に銃で発射された弾丸を相互に消滅させるという用語で表現されていましたが、より平和なプレゼンテーションを楽しむことができると思いました。オズの無限の平坦な世界では、イエローブリックロードはエメラルドシティの中心から始まり、田舎を横切り、それ自体を横断することなく永遠に進みます。毎日正午に、1匹の元気な若い雌雄同体のTribbleは、1日に最大1キロメートルの均一にランダムに選択された速度で、この道路に沿って起点から転がり始めます。その旅を通して、同じ速度で転がり続け、止まることはありません。しかし、あるTribbleが道路上で別のTribbleを追い越した場合、それぞれが即座にソウルメイトを認識し、2人が横に落ちます（おそらく、再生して最終的にはさらに多くのTribblesを家に返します）。ご存じのように、まったく同じ速度で2つのトリブルが回転する可能性はゼロであるため、このような交配が頻繁に発生します。ああ、幸せなトリブルズ！しかし、人生は彼ら全員にとって良いと保証されていますか？少なくとも1つのTribbleが永遠に続き、追い越されたり追い越されたりすることはありません。

12 probability stochastic-processes puzzle

2

共同正規性は、正常なランダム変数の合計が正常であるための必要条件ですか？

関連する質問に対する私のこの回答に続くコメントで、ユーザーssdecontrolとGlen_b は、合計正規性を主張するためにと共同正規性が必要かどうかを尋ねました。ジョイントの正規性が十分であることは、もちろんよく知られています。この補足的な質問はそこでは取り上げられておらず、おそらくそれ自体で検討する価値があります。XXXYYYX+YX+YX+Y 共同正規性は限界正規性を意味するので、私は尋ねますが通常のランダム変数であるが、とが一緒に通常のランダム変数ではないような通常のランダム変数とが存在しますか？XXXYYYX+YX+YX+YXXXYYY 場合はと正規分布を持つ必要はありません、正常な確率変数を簡単に見つけることができます。1つの例は、以前の回答にあります（リンクは上記のとおりです）。上記のハイライトされた質問に対する答えは「はい」であると信じており、この質問に対する答えとして例を（私が思うに）掲載しています。XXXYYY

12 probability normal-distribution distributions bivariate multivariate-normal

2

Slutskyの定理は、2つのシーケンスの両方が非縮退ランダム変数に収束する場合でも有効ですか？

Slutskyの定理に関するいくつかの詳細について混乱しています。ましょう{Xn}{Xn}\{X_n\}、{Yn}{Yn}\{Y_n\}スカラー/ベクトル/行列ランダム要素の二つの配列です。もしXnXnX_nランダム要素に分布収束XXX及びYnYnY_n 収束定数に確率でcccは、Xn+Yn XnYn Xn/Yn →d X+c→d cX→d X/c,Xn+Yn →d X+cXnYn →d cXXn/Yn →d X/c,\eqalign{ X_{n}+Y_{n}\ &{\xrightarrow {d}}\ X+c\\ X_{n}Y_{n}\ &{\xrightarrow {d}}\ cX\\ X_{n}/Y_{n}\ &{\xrightarrow {d}}\ X/c, } ことを条件cccここで、可逆である→d→d{\xrightarrow {d}}分布の収束を表します。 Slutskyの定理の両方のシーケンスが非縮退ランダム変数に収束する場合、定理はまだ有効であり、有効でない場合（誰かが例を提供できますか？）、有効にするための追加条件は何ですか？

12 probability random-variable convergence slutsky-theorem

1

特別な確率分布

場合非ゼロ値を有する確率分布が上にあるp(x)p(x)p(x)[0,+∞)[0,+∞)[0,+\infty)、どのような種類の（S）のためのp(x)p(x)p(x)の定数が存在するc>0c>0c\gt 0よう ∫∞0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2∫0∞p(x)log⁡p(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^2すべてについて0<ϵ<10<ϵ<10\lt\epsilon\lt 1？上記の不等式は、実際には分布p(x)p(x)p(x)とその圧縮バージョン間のカルバック・ライブラー発散(1+ϵ)p(x(1+ϵ))(1+ϵ)p(x(1+ϵ)){(1+\epsilon)}p({x}{(1+\epsilon)})です。この不等式は指数分布、ガンマ分布、ワイブル分布に当てはまることがわかり、それがより大きなクラスの確率分布に有効かどうかを知りたいと思っています。その不平等が何を意味するのか考えていますか？

12 probability stochastic-processes kullback-leibler probability-inequalities

2

確率モデルを調整しながら最適なビン幅を選択する方法は？

背景：発生する結果の確率を予測するモデルを調整する方法について、いくつかの素晴らしい質問/回答があります。例えばブライアースコア、および解像度、不確実性、信頼性への分解。較正プロットと等張回帰。これらの方法では、予測結果に対するビニング方法の使用が必要になることが多く、結果（0、1）の振る舞いは、平均結果をとることによりビン上で平滑化されます。問題：ただし、ビンの幅を選択する方法を教えてくれるものは見つかりません。質問：最適なビン幅を選択するにはどうすればよいですか？試行：使用されている2つの一般的なビンの幅は次のようです。等幅ビニング、たとえば、間隔[0、1]の10％をカバーする10個のビン。ここで説明する Tukeyのビニング方法。しかし、最も誤ってキャリブレーションされた予測確率の間隔を見つけることに関心がある場合、ビンのこれらの選択は最も最適ですか？

12 probability predictive-models binary-data calibration scoring-rules

1

カードゲーム：4枚のカードをランダムに引き、6枚のカードを引いた場合、私の最高のカードがあなたの最高のカードよりも高い確率はどのくらいですか？

タイトルで述べたように、私がランダムに4枚のカードを引き、同じデッキから6枚を引いた場合、私の最高のカードがあなたの最高のカードを破る確率はどうですか？異なるデッキからドローする場合、これはどのように変わりますか？ありがとう！

12 probability maximum

2

を見つける方法

どうすれば解決できますか？中間方程式が必要です。たぶん答えは−tf(x)−tf(x)-tf(x)です。 ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)は確率密度関数です。すなわち、あるlimx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0とlimx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 ソース： http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf p.40 以下の中間方程式を試してください： ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx \right ]?? ddt∫atf(x)dx=−ddt∫taf(x)dx=−ddt(F(t)−F(a))=F′(t)=f(t)ddt∫taf(x)dx=−ddt∫atf(x)dx=−ddt(F(t)−F(a))=F′(t)=f(t) \frac{d}{dt} \int_t^a f(x)\,dx = -\frac{d}{dt} …

12 probability distributions self-study mathematical-statistics

4

独立分布のどの比率が正規分布を与えますか？

2つの独立した正規分布の比率により、コーシー分布が得られます。t分布は、独立したカイ2乗分布で除算された正規分布です。2つの独立したカイ2乗分布の比率により、F分布が得られます。平均および分散正規分布確率変数を与える独立した連続分布の比率を探していますか？μμ\muσ2σ2\sigma^2 考えられる答えはおそらく無限にあります。これらの可能な答えをいくつか教えてもらえますか？比率が計算される2つの独立した分布が同じであるか、少なくとも類似の分散を持っている場合、特に感謝します。

12 probability distributions normal-distribution mathematical-statistics

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

確率の比率とPDFの比率

クラスタリングの問題を解決するためにベイズを使用しています。いくつかの計算を行った後、2つの確率の比率を取得する必要があります。 P(A)/P(B)P(A)/P(B)P(A)/P(B) を取得できるようにします。これらの確率は、この回答で説明されているように、2つの異なる2D多変量KDEの統合によって得られます。P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy ここで、f^(x,y)f^(x,y)\hat{f}(x, y)およびg^(x,y)g^(x,y)\hat{g}(x, y)はKDEであり、しきい値f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)およびg^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。両方のKDEはガウスカーネルを使用します。私が作業しているものに似たKDEの代表的な画像をここで見ることができます：2Dでのカーネル密度推定量の統合。 python関数stats.gaussian_kdeを使用してKDEを計算するため、次の一般的な形式を想定しています。 KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} ここnで、ポイントの配列の長さとh使用される帯域幅です。上記の積分は、モンテカルロプロセスを適用して計算されますが、これは非常に計算コストがかかります。このようなケースでは、確率の比率をしきい値ポイントで評価されたPDF（KDE）の比率で置き換えて、同等の有効な結果を得ることができることをどこかで読みました（場所を忘れてしまった、申し訳ありません）。KDEs比の計算は、MCとの積分比の計算よりも桁違いに速いため、これに興味があります。したがって、問題はこの式の妥当性に限定されます。 P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} どのような状況下で、もしあれば、この関係が真実であると言えますか？ [誤字修正（編集）] 追加： …

12 probability bayesian maximum-likelihood kernel-smoothing

2

t分布密度関数の背後にある直感

スチューデントのt分布について勉強していますが、t分布密度関数をどのように導出するのか疑問に思い始めました（ウィキペディア、http：//en.wikipedia.org/wiki/Student%27s_t-distributionから）： f(t)=Γ(v+12)vπ−−√Γ(v2)(1+t2v)−v+12f(t)=Γ(v+12)vπΓ(v2)(1+t2v)−v+12f(t) = \frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\:\Gamma(\frac{v}{2})}\left(1+\frac{t^2}{v} \right)^{-\frac{v+1}{2}} ここで、は自由度、Γはガンマ関数です。この機能の直感は何ですか？つまり、二項分布の確率質量関数を見れば、それは理にかなっています。しかし、t分布密度関数は私にはまったく意味がありません...それは一見してまったく直感的ではありません。それとも、それは鐘形の曲線を持ち、それが私たちのニーズを満たすというだけの直観ですか？vvvΓΓ\Gamma 助けのためのThnx :)

12 probability normal-distribution t-distribution

5

ジョン・ケリッヒのコインフリップデータ

誰もが第二次世界大戦中にジョン・ケリッヒによって行われた10,000回のコインフリップ（つまり10,000個の頭と尾）すべての結果をどこで得るかを提案できますか？

12 probability

1

測定濃度の不等式を理解する

この質問の精神で、ヘフディングの不平等で使用される補題の証明を理解することで、私はヘフディングの不平等につながるステップを理解しようとしています。証明で私にとって最も謎になっているのは、指数変数がiid変数の合計に対して計算され、その後マルコフの不等式が適用される部分です。私の目標は理解することです。なぜこの手法は厳しい不平等をもたらすのでしょうか。典型的な説明は、指数のプロパティを生成する瞬間を指します。しかし、これはあまりにもあいまいです。 Taoのブログhttp://terrytao.wordpress.com/2010/01/03/254a-notes-1-concentration-of-measure/#hoeffの投稿には、いくつかの回答が含まれている場合があります。この目標を念頭に置いて、私の質問は、私が立ち往生しているタオの投稿の3つのポイントについてであり、一度説明した洞察を与えることができると思います。 Taoは、k番目のモーメントを使用して、次の不等式を導き出しこれは、任意のkに対して真であれば、彼は束縛指数を終了します。これは私が迷っているところです。 P（|SN|≥λ√P(|Sn|≥λn−−√)≤2(ek/2−−−−√λ)k. (7)P(|Sn|≥λn)≤2(ek/2λ)k. (7)\displaystyle {\bf P}( |S_n| \geq \lambda \sqrt{n} ) \leq 2 (\frac{\sqrt{ek/2}}{\lambda})^k. \ \ \ \ \ (7)P（ | Sn| ≥λ nは−−√）≤ Cexp（- C λ2）（8 ） P(|Sn|≥λn)≤Cexp⁡(−cλ2) (8)\displaystyle {\bf P}( |S_n| \geq \lambda \sqrt{n} ) \leq C \exp( - c \lambda^2 ) …

12 probability probability-inequalities

2

カーネル密度推定器を2Dに統合する

誰かがトレイルをたどりたい場合に備えて、私はこの質問から来ています。基本的に、N個のオブジェクトで構成されたデータセットがあり、各オブジェクトには特定の数の測定値（この場合は2つ）が付加されています。ΩΩ\OmegaNNN Ω = o1[ x1、y1] 、o2[ x2、y2] 、。。。、oN[ xN、yN]Ω=o1[バツ1、y1]、o2[バツ2、y2]、。。。、oN[バツN、yN]\Omega = o_1[x_1, y_1], o_2[x_2, y_2], ..., o_N[x_N, y_N] Iは、確率を決定する方法が必要新しいオブジェクトに属するΩを私はその質問に助言されたように、確率密度得るためにFをp [ xp、yp]p[バツp、yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}私は私が既に持っていると信じてカーネル密度推定スルーを、。私の目標は、この新しいオブジェクトの確率（得ることであるので、設定されたこの2次元データへの帰属）Ωを、私はPDFファイルに統合するように言われたFを "上のサポートの値はその密度のためにあなたが観察したものよりも少ない」。"観察"密度は、fは、新しいオブジェクトで評価P、すなわち：F（XはP、Y P）。だから私は方程式を解く必要があります：p [ xp、yp]p[バツp、yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}f^f^\hat{f}pppf^（xp、yp）f^（バツp、yp）\hat{f}(x_p, y_p) ∬x 、y：f^（x 、y）< f^（xp、yp）f^（x 、y）dバツdy∬バツ、y：f^（バツ、y）<f^（バツp、yp）f^（バツ、y）dバツdy\iint_{x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p)} \hat{f}(x,y)\,dx\,dy 2DデータセットのPDF（pythonのstats.gaussian_kdeから取得）モジュール）は次のようになります。ここで、赤い点は新しいオブジェクトp [ x p、y p ]を表しますp [ xp、yp]p[バツp、yp]p[x_p, …

12 probability maximum-likelihood kernel-smoothing numerical-integration

1

テニスの試合が1つの大きなセットであった場合、同じ精度を与えるゲームはいくつありますか？

テニスには独特の3層のスコアリングシステムがあり、より良いプレーヤーを決定するための実験としての試合という観点から、これには統計的な利点があるのだろうかと思います。慣れていない人のために、通常のルールでは、2ポイントのリードがある限り、ゲームは最初から4ポイントで勝ちます（つまり、4-2の場合は勝ちますが、4-3の場合はさらに1ポイントが必要です。 1人のプレイヤーが2つ先になるまで進みます）。セットはゲームのコレクションであり、セットは最初から6までに勝ち、再び2で勝たなければなりません。ただし、今回は特別なタイブレーカーゲームが行われます（ウィンブルドンの最終セットなどを除く）。 ..）試合は、競争に応じて最初の2セットまたは3セットで勝ちます。今、テニスはゲームが不公平であるという点でも奇妙です。どの時点でも、サーバーには大きな利点があります。したがって、サーバーが交互に行うゲームは異なります。タイブレーカーゲームでは、すべてのポイントの後にサーブが交互に行われ、2ポイントのリードで、最初から7ポイントになります。プレーヤーAがサーブでポイントを獲得する確率がpspsp_sあり、を受け取ったと仮定しprprp_rます。問題はこれです。 A）ビッグ「Nゲームのベスト」マッチとしてテニスをしたばかりで、通常のベスト5セットテニスと同じ精度を与えるゲームの数 B）ちょうど大きなタイブレーカーゲームとしてテニスをプレイした場合、5セットテニスの通常のベストと同じ精度を与えるポイントはいくつですか？明らかに、これらの答えはとp rの値自体に依存するため、知っておくとよいでしょうpspsp_sprprp_r C）、p rが一定の場合、通常のテニスでプレイされるゲームとポイントの予想数はいくらですかpspsp_sprprp_r 「精度」の定義両方のプレイヤーのスキルが一定であると仮定した場合、無限の時間プレイした場合、プレイの形式に関係なく、いずれかのプレイヤーがほぼ確実に勝ちます。このプレイヤーは「正しい」勝者です。正しい勝者はのプレイヤーであると確信しています。pr+ps>1pr+ps>1p_r+p_s > 1 プレイのより良い形式は、同じポイント数で正しい勝者をより頻繁に生成するか、逆に少数のポイントで同じ確率で正しい勝者を生成するものです。

12 probability inference games

タグ付けされた質問 「probability」

タグ付けされた質問「probability」