統計とビッグデータ probability

2

ベイジアン推論を実行するために、どのソフトウェア統計パッケージをお勧めしますか？たとえば、openBUGSまたはwinBUGSをスタンドアロンとして実行したり、Rから呼び出すこともできます。しかし、Rにはベイジアン分析を実行できる独自のパッケージ（MCMCPack、BACCO）がいくつかあります。 Rのどのベイジアン統計パッケージが最適であるか、または他の選択肢（MatlabまたはMathematica？）についての提案はありますか？比較したい主な機能は、パフォーマンス、使いやすさ、安定性、柔軟性です

14 r probability bayesian inference bugs

1

モーメント生成関数の限界

この質問は、モーメント生成関数（MGF）の限界についてここで質問されたものから生じます。仮定バツバツX有界ゼロ平均ランダム変数に値を取っている [ - σ、σ][−σ、σ][-\sigma, \sigma]とlet G （t ）= E[ et X]G（t）=E[etバツ]G(t) = E[e^{tX}]であり、そのMGFを。Hoeffdingの不等式の証明に使用される結合した、我々はその G （t ）= E[ et X] ≤ Eσ2t2/ 2G（t）=E[etバツ]≤eσ2t2/2G(t) = E[e^{tX}] \leq e^{\sigma^2t^2/2} ここで、右側は標準偏差σσ\sigmaゼロ平均正規確率変数のMGFとして認識できます。今の標準偏差バツバツXより大きくなることはできませんσσ\sigmaときに最大値が発生すると、バツバツX例えば、その離散ランダム変数である P{ X= σ} = P{ X= - σ} = 12P{バツ=σ}=P{バツ=−σ}=12P\{X = \sigma\} = P\{X = -\sigma\} = \frac{1}{2}。したがって、参照される境界は、ゼロ平均有界確率変数バツバツXのMGFは、標準偏差がバツバツXが取りうる最大の標準偏差に等しいゼロ平均正規確率変数のMGFによって上に制限されると考えることができます持ってる。私の質問は次のとおりです。これは、Hoeffdingの不等式の証明以外の場所で使用される独立した関心のよく知られた結果であり、もしそうなら、非ゼロの平均でランダム変数に拡張することも知られていますか？プロンプトは、この質問は、その結果、非対称範囲でき[ a 、b …

14 probability probability-inequalities mgf

5

子供の統計や確率を教えるためのソフトウェア（またはwebapps）？

（遠い将来）子供に統計を教えたいです。さらに言えば、統計（確率論的）アイデアを子供（または大人）に説明するのに役立つソフトウェア（明らかにFOSSの傾向がある）またはwebappsを知ってうれしいです。これは、インストラクター、子供、またはその両方で使用できます。回答の推奨形式：ソフトウェア名、それが教えるのに役立つもの、誰がそれを使うべきか、リンク。

14 probability references software teaching

1

キャレットglmnetとcv.glmnet

glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。次のような多くの質問が提起されました。分類モデルtrain.glmnet対cv.glmnet？キャレットでglmnetを使用する適切な方法は何ですか？「キャレット」を使用して「glmnet」を相互検証するしかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります：推定されるラムダはなぜそんなに違うのですか？ library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

GAM vs LOESS vsスプライン

コンテキスト：パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。次の認識は正しいですか？レスは、特定の値で応答を推定します。スプラインは、データ（一般化された加法モデルを構成する）に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか？

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

2

ロジスティック回帰予測の出力

次のコードを使用してロジスティック回帰を作成しました。 full.model.f = lm(Ft_45 ~ ., LOG_D) base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg) step(base.model.f, scope=list(upper=full.model.f, lower=~1), direction="forward", trace=FALSE) 次に、出力を使用して最終モデルを作成しました。 final.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg + IP_util_E2_m02_flg + AE_NumVisit1_flg + OP_NumVisit1_m01_flg + IP_TotLoS_m02 + Ft1_45 + IP_util_E1_m05_flg + IP_TotPrNonElecLoS_m02 + IP_util_E2pl_m03_flg + LTC_coding + OP_NumVisit0105_m03_flg + OP_NumVisit11pl_m03_flg + AE_ArrAmb_m02_flg) 次に、予測関数を使用して、異なるデータセットの結果を予測しました。 log.pred.f.v <- …

14 r probability logistic

2

正規分布のランダム変数の束の中で、どれが最大ですか？

ランダム変数ます。は、平均および分散正規分布があります。 RVSは通常、平均で配布される、分散。すべては相互に独立しています。X0,X1,…,XnX0,X1,…,XnX_0,X_1,\dots,X_nX0X0X_0μ>0μ>0\mu>0111X1,…,XnX1,…,XnX_1,\dots,X_n000111 レッツそのイベントを表し、これらの最大の、すなわち、。\ Pr [E]を計算または推定したい。私は\ Pr [E]の式を\ mu、nの関数として、または\ Pr [E]の合理的な推定値または近似値を探しています。EEEX0X0X_0Pr [ E ] Pr [ E ] μ 、n Pr [ E ]X0>max(X1,…,Xn)X0>max(X1,…,Xn)X_0 > \max(X_1,\dots,X_n)Pr[E]Pr[E]\Pr[E]Pr[E]Pr[E]\Pr[E]μ,nμ,n\mu,nPr[E]Pr[E]\Pr[E] 私のアプリケーションでは、は固定（）で、\ Pr [E] \ ge 0.99になる\最小値を見つけたいのですが、一般的な質問にも興味があります。N = 61 μ のPr [ E ] ≥ 150nnnn=61n=61n=61μμ\muPr[E]≥0.99Pr[E]≥0.99\Pr[E] \ge 0.99

14 probability normal-distribution

3

中心極限定理と多数の法則

中心極限定理は、NNNが無限大になるにつれてiid変数の平均が正規分布になると述べています。これにより、2つの質問が発生します。これから多数の法則を推測できますか？大数の法則は、確率変数の値のサンプルの平均が真の平均と等しいことを言う場合はμμ\muとして、NNN無限大になり、価値になることを（中心極限が言うように）それを言っても、強いと思われるN(μ,σ)N(μ,σ)\mathcal N(\mu, \sigma)ここで、σσ\sigmaは標準偏差です。それでは、中央限界が多数の法則を意味すると言うのは公平ですか？中心極限定理は変数の線形結合に適用されますか？

14 probability central-limit-theorem law-of-large-numbers

3

途方もなく大きなZスコアに関連する確率を計算する方法は？

ネットワークモチーフ検出用のソフトウェアパッケージは、非常に高いZスコアを返すことがあります（私が見た最高は600,000+ですが、100を超えるZスコアは非常に一般的です）。これらのZスコアが偽であることを示すつもりです。巨大なZスコアは、非常に低い関連確率に対応します。関連する確率の値は、最大6のZスコアの正規分布ウィキペディアページ（およびおそらくすべての統計テキスト）に記載されています。質問：誤差関数1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2})nで最大1,000,000の場合、たとえば？私は特に、このために既に実装されたパッケージを望んでいます（可能な場合）。私がこれまでに見つけた中で最高のものはWolframAlphaで、n = 150で計算できます（こちら）。

14 probability normal-distribution p-value approximation z-statistic

3

サンプリングされた重複および一意の頻度から母集団サイズを推定する

ランダムなアイテムに関する情報を要求できるWebサービスがあります。リクエストごとに、各アイテムが返される可能性が等しくなります。アイテムをリクエストし続け、重複の数と一意の数を記録できます。このデータを使用してアイテムの総数を推定するにはどうすればよいですか？

14 probability population coupon-collector-problem

3

爆弾はどこにありますか：行と列の合計を与えられた確率を推定する方法は？

この質問は、ポケモンソウルシルバーのミニゲームに触発されたものです。この5x6領域に15個の爆弾が隠れていると想像してください（編集：最大1個の爆弾/セル）：行/列の合計を考慮して、特定のフィールドで爆弾を見つける確率をどのように推定しますか？列5（合計爆弾= 5）を見ると、次のように思うかもしれません。この列では、行2で爆弾を見つけるチャンスは行1で見つける可能性の2倍です。この（間違った）直接比例の仮定は、基本的に標準の独立テスト操作（カイ二乗など）を間違ったコンテキストに描画すると説明できるため、次の推定につながります。ご覧のように、直接比例は100％を超える確率の推定につながり、それ以前でも間違っています。そこで、考えられるすべての順列の計算シミュレーションを実行し、15個の爆弾を配置する276のユニークな可能性を導きました。（与えられた行と列の合計） 276のソリューションの平均は次のとおりです。これは正しい解決策ですが、指数関数的な計算作業のため、推定方法を見つけたいと思います。私の質問は今です：これを推定する確立された統計的方法はありますか？これが既知の問題であるかどうか、それがどのように呼ばれるか、お勧めできる論文/ウェブサイトがあるかどうか疑問に思っていました！

14 probability estimation chi-squared independence games

3

AUCの確率論的解釈を導き出す方法は？

ROC曲線の下の領域が、分類子がランダムに選択された「ポジティブ」インスタンスを（取得された予測から）ランダムに選択された「ポジティブ」インスタンス（元のポジティブクラスから）よりもランク付けする確率が高いのはなぜですか？このステートメントを積分を使用して数学的に証明し、真の正と負のクラス分布のCDFとPDFをどのように証明しますか？

14 probability roc auc

2

ジェンセンシャノンダイバージェンスvsカルバックライブラーダイバージェンス？

KLダイバージェンスは対称的ではなく、厳密にメトリックと見なすことはできません。そうである場合、JS Divergenceがメトリックに必要なプロパティを満たすときに使用されるのはなぜですか？ KLダイバージェンスは使用できるが、JSダイバージェンスは使用できない、またはその逆のシナリオはありますか？

14 probability distributions kullback-leibler metric

3

関数変換の下で確率は保存されますか？

私はこれはちょっと基本的だと思いますが、確率変数があると言うと、確率は実数値の連続関数fのと同じです？P （X ≤ A ）P （F （X ）≤ F （））FバツバツXP（X≤ A ）P（バツ≤a）P(X \leq a)P（f（X）≤ F（a ））P（f（バツ）≤f（a））P(f(X) \leq f(a))fff

13 probability distributions

2

モーメント生成関数と確率生成関数の違いは何ですか？

「確率生成関数」と「モーメント生成関数」という2つの用語を混同しています。これらの用語はどう違うのですか？

13 probability distributions terminology intuition mgf

タグ付けされた質問 「probability」

タグ付けされた質問「probability」