統計とビッグデータ random-generation

8

シミュレーション研究のために、既存の変数に対する事前定義された（母集団）相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。アイデアや既存の機能へのリンクを歓迎します！結論：さまざまなソリューションで、2つの有効な答えが出ました。カラカルによるR スクリプト。事前定義された変数との正確な（サンプル）相関を持つランダム変数を計算します事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加：質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

7

3次元単位球の表面に均一に分布した点を生成する方法は？

3次元単位球の表面に均一に分布した点を生成する方法を疑問に思っていますか？また、これらのポイントを生成した後、それらが表面真に均一であるかどうかを視覚化して確認する最良の方法は何ですか？x2+y2+z2=1x2+y2+z2=1x^2+y^2+z^2=1

68 random-generation

11

Brain Teaser：pr（head）= pのバイアスされたコインを使用して、等しい確率で7つの整数を生成する方法

これは、Glassdoorで見つけた質問です。コインを使用して、等しい確率で7つの整数をどのように生成しますか？Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1）\mathbb{Pr}(\text{Head}) = p\in(0,1) 基本的に、あなたは公平かもしれないし、そうでないかもしれないコインを持っています、そしてこれはあなたが持っている唯一の乱数生成プロセスであるので、これらの各整数を得る確率が1から7までの整数を出力する乱数ジェネレータを考え出します1/7です。データ生成プロセスの効率が重要です。

58 probability binomial random-generation

8

特定の平均値や標準偏差など、特定の制約を満たすデータをシミュレートする方法は？

この質問は、メタ分析に関する私の質問に基づいています。しかし、既存の公開されたデータセットを正確に反映するデータセットを作成したいコンテキストを教えるのにも役立つと思います。特定の分布からランダムデータを生成する方法を知っています。たとえば、次のような研究の結果について読んだ場合：平均102 5.2の標準偏差、およびサンプルサイズは72です。 rnormR を使用して同様のデータを生成できます。たとえば、 set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) もちろん、平均とSDはそれぞれ102と5.2に正確には等しくありません。 round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 一般的に、一連の制約を満たすデータをシミュレートする方法に興味があります。上記の場合、制約はサンプルサイズ、平均、標準偏差です。他の場合には、追加の制約があるかもしれません。例えば、データまたは基になる変数の最小値と最大値がわかっている場合があります。変数は整数値のみ、または非負の値のみをとることがわかっている場合があります。データには、相互相関が既知の複数の変数が含まれる場合があります。ご質問一般に、一連の制約を正確に満たすデータをどのようにシミュレートできますか？これについて書かれた記事はありますか？Rにこれを行うプログラムはありますか？例のために、特定の平均値とsdを持つように変数をどのようにシミュレートできますか？

56 r dataset simulation random-generation

4

相関のある乱数を生成する方法（与えられた平均、分散、相関度）

これが少し基本的すぎるように思える場合は申し訳ありませんが、ここで理解を確認しようとしているだけだと思います。2つのステップでこれを行う必要があるという感覚が得られ、相関行列を理解しようとし始めましたが、実際には複雑に見え始めています。相関乱数を生成するための、理想的で迅速な優れた方法の簡潔な説明を（理想的には擬似コードソリューションへのヒントとともに）探しています。既知の平均と分散を持つ2つの疑似ランダム変数の高さと重み、および特定の相関関係を考えると、この2番目のステップがどのように見えるかを基本的に理解しようとしていると思います。 height = gaussianPdf(height.mean, height.variance) weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), correlated_variance(height.variance, correlation_coefficient)) 相関平均と分散を計算するにはどうすればよいですか？しかし、ここで本当に関連する問題であることを確認したいと思います。マトリックス操作に頼る必要がありますか？それとも、この問題に対する基本的なアプローチに何か他の非常に間違ったものがありますか？

53 probability correlation conditional-probability random-generation

5

偽の一様乱数：真の一様データよりも均等に分布

私は、均一に分布しているように見える乱数を生成する方法を探しています-そして、すべてのテストはそれらが均一であることを示します- 真の均一データよりも均等に分布していることを除いて。「真の」均一なランダムの問題は、それらが時々クラスター化することです。この効果は、サンプルサイズが小さいほど強くなります。大まかに言って、U [0; 1]で2つのUniformランダムを描画すると、確率が0.1の範囲内にある可能性は約10％、0.01の範囲内にある可能性は1％です。だから私は均一な乱数よりも均等に分布している乱数を生成する良い方法を探しています。ユースケースの例：私はコンピューターゲームをやっていて、地図にランダムに宝物を置きたい（他のことは気にしない）とします。宝物をすべて1か所に集めたくはありません。地図全体に宝物を置くべきです。一様なランダムでは、たとえば10個のオブジェクトを配置した場合、5個ほどが互いに非常に近いという可能性は低くありません。これにより、あるプレイヤーが別のプレイヤーよりも有利になる場合があります。掃海艇について考えてみてください（十分な機雷がある場合は低いとはいえ）、あなたは本当に幸運で、ワンクリックで勝つことができます。私の問題に対する非常に素朴なアプローチは、データをグリッドに分割することです。数が十分に大きい（そして要因がある）限り、この方法で余分な均一性を強制できます。したがって、U [0; 1]から12個のランダム変数を描画する代わりに、U [0; .5]から6個、U [0.5; 1]から6個、またはU [0; 1/3] + 4から4個描画できます。 U [1/3; 2/3]から+ U [2/3;から4; 1]。この余分な均一性をユニフォームに取り入れるより良い方法はありますか？おそらく、バッチランダムに対してのみ機能します（単一のランダムを描画するときは、明らかに範囲全体を考慮する必要があります）。特に、後でレコードをシャッフルすることができます（したがって、最初の3番目から4番目のレコードではありません）。少しずつやってみてはいかがですか？それで、最初はU [0; 1]にあり、次に各半分から2つ、各3つから1つ、各4つから1つですか？これは調査されましたか？xとyに異なるジェネレーターを使用して、それらを相関させないように注意する必要があります（最初のxyは常に下半分、2番目は左半分と下3番目、3番目は中央3番目と上3番目です）。 ..だから、少なくともいくつかのランダムなビンの並べ替えも必要です。そして、長期的には、それはあまりにも均一になると思います。サイドノードとして、分布が均一になりすぎて真に均一にならないかどうかをテストすることはよく知られていますか？そのため、「真の統一」と「誰かがデータをいじり、アイテムをより均等に分散させる」ことをテストします。正しく思い出せば、Hopkins Statisticはこれを測定できますが、テストにも使用できますか？またやや逆KS-テスト：最大偏差が特定の予想しきい値を下回っている場合、データは均等に分散されていますか？

43 distributions random-generation uniform quasi-monte-carlo

8

ランダムな正半相関行列を効率的に生成する方法は？

正半値（PSD）相関行列を効率的に生成できるようにしたいと思います。生成する行列のサイズを大きくすると、私の方法は劇的に遅くなります。効率的なソリューションを提案できますか？Matlabの例を知っているなら、私はとてもありがたいです。 PSD相関行列を生成するとき、生成される行列を記述するパラメータをどのように選択しますか？平均相関、相関の標準偏差、固有値？

38 random-generation correlation-matrix

3

Rの乱数-Set.seed（N）[複製]

この質問にはすでに答えがあります：乱数ジェネレーターのシードとは正確には何ですか？ 3つの答え set.seed()Rで擬似乱数生成に使用していることに気付きました。また、set.seed(123)結果を再現できることを保証するように、同じ番号を使用することも認識しています。しかし、私が得られないのは、値自体の意味です。私はいくつかの機能で遊んでいます、そしていくつかの使用set.seed(1)またはset.seed(300)またはset.seed(12345)。その番号の意味（もしあれば）-そしていつ別の番号を使用すべきか。 set.seed(12345)たとえば、私が取り組んでいる本の中で、決定木用のトレーニングセットを作成するときに使用しています。次に、別の章でset.seed(300)、ランダムフォレストの作成に使用しています。番号を取得しないでください。

37 r random-generation

11

8個のランダムビットを（0、255）で均一に生成するのはなぜですか？

8つのランダムビット（0または1）を生成し、それらを連結して8ビット数を形成しています。単純なPythonシミュレーションでは、離散セット[0、255]で均一な分布が得られます。これが私の頭の中で理にかなっている理由を正当化しようとしています。これを8枚のコインのフリッピングと比較した場合、期待値は4頭/ 4尾のどこかにありませんか？だから私にとって、私の結果は範囲の中央のスパイクを反映するはずです。言い換えると、8個のゼロまたは8個のシーケンスが、4と4、または5と3などのシーケンスと同じくらい可能性が高いように見えるのはなぜですか？ここで何が欠けていますか？

35 binomial random-generation uniform

6

モンテカルロシミュレーションを使用した近似

私は最近、モンテカルロシミュレーションを見ていて、ππ\pi（長方形内の円、比例領域）などの定数を近似するために使用しています。ただし、モンテカルロ積分を使用してeee [オイラー数]の値を近似する対応する方法を考えることはできません。これをどのように行うことができるかについての指針はありますか？

35 simulation monte-carlo algorithms random-generation numerical-integration

3

の数字は統計的にランダムですか？

シーケンスを観察するとします： 7、9、0、5、5、5、4、8、0、6、9、5、3、8、7、8、5、4、0、0、6、6、4、5、3、 3、7、5、9、8、1、8、6、2、8、4、6、4、1、9、9、0、5、2、2、0、4、5、2、8。 .. これが本当にランダムかどうかを判断するために、どの統計的検定を適用しますか？参考までに、これらは番目の数字です。したがって、数字は統計的にランダムですか？これは定数について何か言っていますか？nnnππ\piππ\piππ\pi

33 random-generation randomness

1

ランダム対称行列を生成する場合、正定である可能性はどのくらいですか？

いくつかの凸最適化を実験していたときに、奇妙な質問を受けました。質問は：ランダム（標準正規分布など）で対称マトリックスを生成するとします（たとえば、上三角マトリックスを生成し、下半分を埋めて対称であることを確認します）。これは正定マトリックスである可能性があります？とにかく確率を計算する方法はありますか？N× NN×NN \times N

32 probability matrix random-generation eigenvalues random-matrix

2

同じランダムシードを繰り返し使用してバイアスを作成していますか？

私がこれまでに行ったほとんどすべての分析作業で、私は以下を使用します。 set.seed(42) Hitchhiker's Guide to the Galaxyへのオマージュです。しかし、同じシードを繰り返し使用することでバイアスを作り出しているかどうか疑問に思っています。

31 random-generation

5

乱数を手動で生成する

たとえば、標準正規分布からの10の実現など、特定の分布から乱数を手動で生成するにはどうすればよいですか？

30 normal-distribution simulation monte-carlo random-generation randomness

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

タグ付けされた質問 「random-generation」

タグ付けされた質問「random-generation」