タグ付けされた質問 「random-generation」

一連の数字または記号をランダムに、または(ほとんどの場合)疑似ランダムに生成する行為。つまり、予測可能性やパターンがない。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]


11
Brain Teaser:pr(head)= pのバイアスされたコインを使用して、等しい確率で7つの整数を生成する方法
これは、Glassdoorで見つけた質問です。コインを使用して、等しい確率で7つの整数をどのように生成しますか?Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) 基本的に、あなたは公平かもしれないし、そうでないかもしれないコインを持っています、そしてこれはあなたが持っている唯一の乱数生成プロセスであるので、これらの各整数を得る確率が1から7までの整数を出力する乱数ジェネレータを考え出します1/7です。 データ生成プロセスの効率が重要です。

8
特定の平均値や標準偏差など、特定の制約を満たすデータをシミュレートする方法は?
この質問は、メタ分析に関する私の質問に基づいています。しかし、既存の公開されたデータセットを正確に反映するデータセットを作成したいコンテキストを教えるのにも役立つと思います。 特定の分布からランダムデータを生成する方法を知っています。たとえば、次のような研究の結果について読んだ場合: 平均102 5.2の標準偏差、および サンプルサイズは72です。 rnormR を使用して同様のデータを生成できます。たとえば、 set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) もちろん、平均とSDはそれぞれ102と5.2に正確には等しくありません。 round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 一般的に、一連の制約を満たすデータをシミュレートする方法に興味があります。上記の場合、制約はサンプルサイズ、平均、標準偏差です。他の場合には、追加の制約があるかもしれません。例えば、 データまたは基になる変数の最小値と最大値がわかっている場合があります。 変数は整数値のみ、または非負の値のみをとることがわかっている場合があります。 データには、相互相関が既知の複数の変数が含まれる場合があります。 ご質問 一般に、一連の制約を正確に満たすデータをどのようにシミュレートできますか? これについて書かれた記事はありますか?Rにこれを行うプログラムはありますか? 例のために、特定の平均値とsdを持つように変数をどのようにシミュレートできますか?

4
相関のある乱数を生成する方法(与えられた平均、分散、相関度)
これが少し基本的すぎるように思える場合は申し訳ありませんが、ここで理解を確認しようとしているだけだと思います。2つのステップでこれを行う必要があるという感覚が得られ、相関行列を理解しようとし始めましたが、実際には複雑に見え始めています。相関乱数を生成するための、理想的で迅速な優れた方法の簡潔な説明を(理想的には擬似コードソリューションへのヒントとともに)探しています。 既知の平均と分散を持つ2つの疑似ランダム変数の高さと重み、および特定の相関関係を考えると、この2番目のステップがどのように見えるかを基本的に理解しようとしていると思います。 height = gaussianPdf(height.mean, height.variance) weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), correlated_variance(height.variance, correlation_coefficient)) 相関平均と分散を計算するにはどうすればよいですか?しかし、ここで本当に関連する問題であることを確認したいと思います。 マトリックス操作に頼る必要がありますか?それとも、この問題に対する基本的なアプローチに何か他の非常に間違ったものがありますか?

5
偽の一様乱数:真の一様データよりも均等に分布
私は、均一に分布しているように見える乱数を生成する方法を探しています-そして、すべてのテストはそれらが均一であることを示します- 真の均一データよりも均等に分布していることを除いて。 「真の」均一なランダムの問題は、それらが時々クラスター化することです。この効果は、サンプルサイズが小さいほど強くなります。大まかに言って、U [0; 1]で2つのUniformランダムを描画すると、確率が0.1の範囲内にある可能性は約10%、0.01の範囲内にある可能性は1%です。 だから私は均一な乱数よりも均等に分布している乱数を生成する良い方法を探しています。 ユースケースの例:私はコンピューターゲームをやっていて、地図にランダムに宝物を置きたい(他のことは気にしない)とします。宝物をすべて1か所に集めたくはありません。地図全体に宝物を置くべきです。一様なランダムでは、たとえば10個のオブジェクトを配置した場合、5個ほどが互いに非常に近いという可能性は低くありません。これにより、あるプレイヤーが別のプレイヤーよりも有利になる場合があります。掃海艇について考えてみてください(十分な機雷がある場合は低いとはいえ)、あなたは本当に幸運で、ワンクリックで勝つことができます。 私の問題に対する非常に素朴なアプローチは、データをグリッドに分割することです。数が十分に大きい(そして要因がある)限り、この方法で余分な均一性を強制できます。したがって、U [0; 1]から12個のランダム変数を描画する代わりに、U [0; .5]から6個、U [0.5; 1]から6個、またはU [0; 1/3] + 4から4個描画できます。 U [1/3; 2/3]から+ U [2/3;から4; 1]。 この余分な均一性をユニフォームに取り入れるより良い方法はありますか?おそらく、バッチランダムに対してのみ機能します(単一のランダムを描画するときは、明らかに範囲全体を考慮する必要があります)。特に、後でレコードをシャッフルすることができます(したがって、最初の3番目から4番目のレコードではありません)。 少しずつやってみてはいかがですか?それで、最初はU [0; 1]にあり、次に各半分から2つ、各3つから1つ、各4つから1つですか?これは調査されましたか?xとyに異なるジェネレーターを使用して、それらを相関させないように注意する必要があります(最初のxyは常に下半分、2番目は左半分と下3番目、3番目は中央3番目と上3番目です)。 ..だから、少なくともいくつかのランダムなビンの並べ替えも必要です。そして、長期的には、それはあまりにも均一になると思います。 サイドノードとして、分布が均一になりすぎて真に均一にならないかどうかをテストすることはよく知られていますか?そのため、「真の統一」と「誰かがデータをいじり、アイテムをより均等に分散させる」ことをテストします。正しく思い出せば、Hopkins Statisticはこれを測定できますが、テストにも使用できますか?またやや逆KS-テスト:最大偏差が特定の予想しきい値を下回っている場合、データは均等に分散されていますか?

8
ランダムな正半相関行列を効率的に生成する方法は?
正半値(PSD)相関行列を効率的に生成できるようにしたいと思います。生成する行列のサイズを大きくすると、私の方法は劇的に遅くなります。 効率的なソリューションを提案できますか?Matlabの例を知っているなら、私はとてもありがたいです。 PSD相関行列を生成するとき、生成される行列を記述するパラメータをどのように選択しますか?平均相関、相関の標準偏差、固有値?

3
Rの乱数-Set.seed(N)[複製]
この質問にはすでに答えがあります: 乱数ジェネレーターのシードとは正確には何ですか? 3つの答え set.seed()Rで擬似乱数生成に使用していることに気付きました。また、set.seed(123)結果を再現できることを保証するように、同じ番号を使用することも認識しています。 しかし、私が得られないのは、値自体の意味です。私はいくつかの機能で遊んでいます、そしていくつかの使用set.seed(1)またはset.seed(300)またはset.seed(12345)。その番号の意味(もしあれば)-そしていつ別の番号を使用すべきか。 set.seed(12345)たとえば、私が取り組んでいる本の中で、決定木用のトレーニングセットを作成するときに使用しています。次に、別の章でset.seed(300)、ランダムフォレストの作成に使用しています。 番号を取得しないでください。

11
8個のランダムビットを(0、255)で均一に生成するのはなぜですか?
8つのランダムビット(0または1)を生成し、それらを連結して8ビット数を形成しています。単純なPythonシミュレーションでは、離散セット[0、255]で均一な分布が得られます。 これが私の頭の中で理にかなっている理由を正当化しようとしています。これを8枚のコインのフリッピングと比較した場合、期待値は4頭/ 4尾のどこかにありませんか?だから私にとって、私の結果は範囲の中央のスパイクを反映するはずです。言い換えると、8個のゼロまたは8個のシーケンスが、4と4、または5と3などのシーケンスと同じくらい可能性が高いように見えるのはなぜですか?ここで何が欠けていますか?

6
モンテカルロシミュレーションを使用した近似
私は最近、モンテカルロシミュレーションを見ていて、ππ\pi(長方形内の円、比例領域)などの定数を近似するために使用しています。 ただし、モンテカルロ積分を使用してeee [オイラー数]の値を近似する対応する方法を考えることはできません。 これをどのように行うことができるかについての指針はありますか?

3
の数字は統計的にランダムですか?
シーケンスを観察するとします: 7、9、0、5、5、5、4、8、0、6、9、5、3、8、7、8、5、4、0、0、6、6、4、5、3、 3、7、5、9、8、1、8、6、2、8、4、6、4、1、9、9、0、5、2、2、0、4、5、2、8。 .. これが本当にランダムかどうかを判断するために、どの統計的検定を適用しますか?参考までに、これらは番目の数字です。したがって、数字は統計的にランダムですか?これは定数について何か言っていますか?nnnππ\piππ\piππ\pi

1
ランダム対称行列を生成する場合、正定である可能性はどのくらいですか?
いくつかの凸最適化を実験していたときに、奇妙な質問を受けました。質問は: ランダム(標準正規分布など)で対称マトリックスを生成するとします(たとえば、上三角マトリックスを生成し、下半分を埋めて対称であることを確認します)。これは正定マトリックスである可能性があります?とにかく確率を計算する方法はありますか?N× NN×NN \times N



1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.