統計とビッグデータ simulation

5

重要な結果が得られるまでデータを収集すると、タイプIのエラー率が増加するのはなぜですか？

重要な結果（例：）が得られるまで（つまり、p-hacking）データを収集すると、タイプIのエラー率が増加するのはなぜだろうか。p < .05p<.05p \lt .05 またR、この現象の実証を高く評価します。

60 r hypothesis-testing p-value simulation type-i-and-ii-errors

8

この質問は、メタ分析に関する私の質問に基づいています。しかし、既存の公開されたデータセットを正確に反映するデータセットを作成したいコンテキストを教えるのにも役立つと思います。特定の分布からランダムデータを生成する方法を知っています。たとえば、次のような研究の結果について読んだ場合：平均102 5.2の標準偏差、およびサンプルサイズは72です。 rnormR を使用して同様のデータを生成できます。たとえば、 set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) もちろん、平均とSDはそれぞれ102と5.2に正確には等しくありません。 round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 一般的に、一連の制約を満たすデータをシミュレートする方法に興味があります。上記の場合、制約はサンプルサイズ、平均、標準偏差です。他の場合には、追加の制約があるかもしれません。例えば、データまたは基になる変数の最小値と最大値がわかっている場合があります。変数は整数値のみ、または非負の値のみをとることがわかっている場合があります。データには、相互相関が既知の複数の変数が含まれる場合があります。ご質問一般に、一連の制約を正確に満たすデータをどのようにシミュレートできますか？これについて書かれた記事はありますか？Rにこれを行うプログラムはありますか？例のために、特定の平均値とsdを持つように変数をどのようにシミュレートできますか？

56 r dataset simulation random-generation

2

ロジスティック回帰の人工データをシミュレートする方法は？

私はロジスティック回帰の理解に何か不足していることを知っており、どんな助けも本当に感謝しています。私が理解している限り、ロジスティック回帰は、入力が与えられた場合の「1」の結果の確率は、逆ロジスティック関数を通過した入力の線形結合であると仮定しています。これは、次のRコードに例示されています。 #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take as '1' if probability > 0.5 #now …

45 r regression logistic generalized-linear-model simulation

6

シミュレーションを使用する場合

ですから、これは非常にシンプルで愚かな質問です。しかし、私が学校にいたとき、私はクラスでのシミュレーションの概念全体にほとんど注意を払わなかったので、そのプロセスに少し恐怖を感じました。素人の言葉でシミュレーションプロセスを説明できますか？（データ、回帰係数などを生成するためのものです）シミュレーションを使用する実際の状況/問題は何ですか？私はRにあるように与えられた例を好むでしょう

40 simulation

2

ロジスティック回帰検出力解析のシミュレーション-設計実験

この質問は、ロジスティック回帰とSASを使用した電力分析に関して私が尋ねた質問に関する@Greg Snowの回答に対応していますProc GLMPOWER。実験を計画しており、要因ロジスティック回帰で結果を分析する場合、シミュレーション（およびここ）を使用して電力分析を実行するにはどうすればよいですか？以下に2つの変数がある簡単な例を示します。最初の変数は3つの可能な値{0.03、0.06、0.09}を取り、2番目はダミーのインジケーター{0,1}です。それぞれについて、各組み合わせの応答率を推定します（レスポンダーの数/マーケティングされる人々の数）。さらに、因子の最初の組み合わせは他の因子の3倍（同等と見なすことができます）にしたいと考えています。これは、この最初の組み合わせが試行された真のバージョンだからです。これは、リンクされた質問で言及されたSASコースで与えられたようなセットアップです。結果の分析に使用されるモデルは、主な効果と相互作用を伴うロジスティック回帰です（応答は0または1です）。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) このモデルで使用するデータセットをシミュレートして電力解析を実行するにはどうすればよいですか？私はSASを介してこれを実行するとProc GLMPOWER（使用STDDEV =0.05486016 に対応するsqrt(p(1-p))pが示す応答率の加重平均です）。 data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …

39 r logistic generalized-linear-model simulation power-analysis

6

モンテカルロシミュレーションを使用した近似

私は最近、モンテカルロシミュレーションを見ていて、ππ\pi（長方形内の円、比例領域）などの定数を近似するために使用しています。ただし、モンテカルロ積分を使用してeee [オイラー数]の値を近似する対応する方法を考えることはできません。これをどのように行うことができるかについての指針はありますか？

35 simulation monte-carlo algorithms random-generation numerical-integration

5

乱数を手動で生成する

たとえば、標準正規分布からの10の実現など、特定の分布から乱数を手動で生成するにはどうすればよいですか？

30 normal-distribution simulation monte-carlo random-generation randomness

2

ブートストラップは、推定量のサンプリング分布にどれくらい近似していますか？

最近ブートストラップを研究した後、私はまだ私を困惑させる概念的な質問を思いつきました：人口があり、人口属性、つまりを知りたい場合、ここで人口を表すためにを使用します。このは、たとえば平均です。通常、母集団からすべてのデータを取得することはできません。したがって、母集団からサイズサンプルを描画します。簡単にするためにiidサンプルがあると仮定します。次に、推定器を取得します。あなたは利用したいについて推論を行うためにあなたがの変動知っていただきたいと思いますので、。θ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} まず、真のサンプリング分布があります。概念的には、母集団から多くのサンプル（それぞれのサイズが）を描画できます。毎回異なるサンプルを取得するため、毎回実現します。最後に、真の分布を回復することができます。OK、これは少なくとも分布を推定するための概念的なベンチマークです。言い換えると、最終的な目標は、さまざまな方法を使用して真の分布を推定または近似することです。θ^θ^\hat{\theta}NNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X) θθ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} さて、質問が来ます。通常、データポイントを含む1つのサンプルのみがあります。次に、このサンプルから何度もリサンプリングすると、ブートストラップ分布が作成されます。私の質問は、このブートストラップ分布はの真のサンプリング分布にどれだけ近いかということです。それを定量化する方法はありますか？XXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

29 bootstrap simulation resampling

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

重要度サンプリングとは何ですか？

私は強化学習を学ぼうとしていますが、このトピックは本当に混乱しています。統計を紹介しましたが、このトピックを直感的に理解できませんでした。

23 variance simulation monte-carlo unbiased-estimator importance-sampling

1

アダプティブMCMCは信頼できますか？

私は適応MCMCについて読んでいます（例えば、Markov Chain Monte Carloハンドブックの第4章、ed。Brooks et al。、2011、およびAndrieu＆Thoms、2008を参照）。 nnnp(n)p(n)p(n)limn→∞p(n)=0limn→∞p(n)=0\lim_{n \rightarrow \infty} p(n) = 0 この結果は、（事後）直感的で、漸近的になります。適応の量はゼロになる傾向があるため、最終的にはエルゴード性を台無しにしません。私の懸念は、有限の時間で何が起こるかです。与えられた有限時間に適応がエルゴード性を台無しにしていないこと、そしてサンプラーが正しい分布からサンプリングしていることをどうやって知るのでしょうか？それが理にかなっている場合、早期適応がチェーンにバイアスをかけないようにするために、どの程度のバーンインを行う必要がありますか？現場の開業医は適応型MCMCを信頼していますか？私が試しビルドでの適応など、エルゴード性を尊重することが知られている他、より複雑な方法ですることを最近の多くの方法を見てきたので、私は求めています理由は、再生やアンサンブルの方法（すなわち、移行を選択することが合法です他の並列チェーンの状態に依存する演算子）。または、Stanなどのバーンイン中にのみ適応が実行されますが、実行時ではありません。これらのすべての取り組みは、ロバーツとローゼンタールによる適応型MCMC（実装するのは信じられないほど簡単です）が信頼できると見なされないことを示唆しています。しかし、おそらく他の理由があります。適応メトロポリス・ヘイスティングスなどの特定の実装についてはどうですか（Haario et al。2001）？参照資料ローゼンタール、JS（2011）。最適なプロポーザルの分布と適応MCMC。マルコフ連鎖モンテカルロのハンドブック、93-112。 Andrieu、C.、＆Thoms、J.（2008）。適応MCMCのチュートリアル。Statistics and Computing、18（4）、343-373。ロバーツ、GO、およびローゼンタール、JS（2007）。適応マルコフ連鎖モンテカルロアルゴリズムの結合とエルゴード性。応用確率のジャーナル、458-475。 Haario、H.、Saksman、E.、＆Tamminen、J.（2001）。適応メトロポリスアルゴリズム。ベルヌーイ、223-242。

20 simulation mcmc random-generation metropolis-hastings

1

幾何学的混合物からどのようにシミュレートできますか？

場合はf1,…,fkf1,…,fkf_1,\ldots,f_kアルゴリズムが利用可能である私は、シミュレートすることができ、そこから密度、すなわち、知られています。製品が積分可能な場合、この製品密度からシミュレートする一般的なアプローチはありますかからのシミュレーターF I∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0fifif_iの？

20 simulation monte-carlo geometric-mean scalability finite-mixture-model

2

時系列の与えられたパワーとクロススペクトル密度のシミュレーション

共分散行列（それらのパワースペクトル密度（PSD）およびクロスパワースペクトル密度（CSD））を考えると、一連の定常色付き時系列の生成に問題があります。 2つの時系列と与えられると、yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)ような多くの広く利用可能なルーチンを使用して、パワースペクトル密度（PSD）およびクロススペクトル密度（CSD）を推定できることを知っていますMatlabなどの関数psd()とcsd()関数。PSDとCSDは共分散行列を構成します C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, これは一般に周波数fff関数です。逆にしたい場合はどうなりますか？共分散行列が与えられた場合、yI(t)yI(t)y_{I}(t)とyJ(t)yJ(t)y_{J}(t)実現をどのように生成しますか？背景理論を含めるか、これを行う既存のツールを指摘してください（Pythonのすべてが素晴らしいでしょう）。私の試み以下は、私が試したものと、私が気づいた問題の説明です。少し長い間読んでおり、誤用された用語が含まれている場合は申し訳ありません。間違っていることが指摘できる場合、それは非常に役立ちます。しかし、私の質問は上記の太字のものです。 PSDとCSDは、時系列のフーリエ変換の積の期待値（またはアンサンブル平均）として記述できます。したがって、共分散行列は次のように記述できます C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, ここで、 Y(f)=(y~I(f)y~J(f)).Y(f)=(y~I(f)y~J(f)). \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 共分散行列はエルミート行列であり、ゼロまたは正の実固有値を持ちます。だから、に分解することができる C（f）= X（f）λ12（f）私λ12（f）X†（f）、C（f）=バツ（f）λ12（f）私λ12（f）バツ†（f）、 \mathbf{C}(f) = \mathbf{X}(f) \boldsymbol\lambda^{\frac{1}{2}}(f) …

20 time-series sampling algorithms simulation covariance

1

Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはいつですか？

MCMCアルゴリズムにはさまざまな種類があります。メトロポリス・ヘイスティングスギブス重要性/拒否サンプリング（関連）。 Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはなぜですか？メトロポリス・ヘイスティングスよりもギブス・サンプリングの方が推論が扱いやすい場合があると思いますが、詳細については明確ではありません。

20 bayesian simulation mcmc gibbs metropolis-hastings

3

まれなイベントロジスティック回帰バイアス：最小限の例で過小評価されたpをシミュレートする方法は？

CrossValidatedには、King and Zeng（2001）によるまれなイベントバイアス修正をいつ、どのように適用するかに関するいくつかの質問があります。私は別の何かを探しています。バイアスが存在するという最小限のシミュレーションベースのデモンストレーションです。特に、王とZenの状態「...まれなイベントデータでは、確率のバイアスはサンプルサイズが数千単位で実質的に意味があり、予測可能な方向にあります。推定イベント確率は小さすぎます。」 Rのこのようなバイアスをシミュレートする私の試みは次のとおりです。 # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not …

19 r logistic simulation bias rare-events

タグ付けされた質問 「simulation」

タグ付けされた質問「simulation」