タグ付けされた質問 「random-variable」

確率変数または確率変数は、偶然の変動(すなわち、数学的な意味でのランダム性)の影響を受ける値です。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]


6
確率の収束とほぼ確実な収束
これら2つの収束の尺度の違いを実際に見たことはありません。(または、実際には、さまざまなタイプの収束のいずれかですが、特にこれらの2つは、多数の弱法則と強力な法則のために言及しています。) 確かに、私はそれぞれの定義を引用し、それらが異なる場合の例を与えることができますが、それでもまだよくわかりません。 違いを理解する良い方法は何ですか?なぜ違いが重要なのですか?それらが異なる特に記憶に残る例はありますか?


4
XとXYのランダム変数間の相関係数が0.7になる傾向があるのはなぜですか
ダグラス・アルトマンが285ページで書いている医学研究のための実践統計から取られた: ... XとYの2つの数量について、XはXYと相関します。実際、XとYが乱数のサンプルであっても、XとXYの相関関係は0.7であると予想されます。 私はRでこれを試しましたが、そうであるようです: x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu) 何故ですか?この背後にある理論は何ですか?


1
複数のランダム変数の積の分散
2つの独立変数の答えを知っています: V a r(XY)= E(X2Y2)− (E(XY))2= V a r(X)V a r(Y)+ V a r(X)(E(Y))2+ V a r(Y)(E(X))2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 しかし、3つ以上の変数の積をとると、各変数の分散と期待値の観点から答えはどうなりますか?V a r( X1バツ2⋯ Xn)Var(X1X2⋯Xn){\rm Var}(X_1X_2 \cdots X_n)

9
ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか?
YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(kkkが指定されている)などのクエリにすばやく応答することに興味があります。 現在、私はそのような質問に答えるためにランダムシミュレーションを使用しています。p_iに従って各X_iをランダムに描画XiXiX_iし、すべてのX_i値を合計してY 'を取得します。このプロセスを数千回繰り返し、時間の小数部分\ Pr(Y '\ leq k)を返します。pipip_iXiXiX_iY′Y′Y'Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k) 明らかに、これは完全に正確ではありません(ただし、シミュレーションの数が増えると精度は大幅に向上します)。また、使用シミュレーションを回避するのに十分な分布に関するデータがあるようです。正確な確率\ Pr(Y \ leq k)を取得する合理的な方法を考えることができますPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)か? PS PerlとRを使用しています。 編集 回答に続いて、私はいくつかの説明が必要かもしれないと思った。問題の設定について簡単に説明します。円周cとnそれにマッピングされた一連の範囲を持つ円形ゲノムが与えられます。たとえば、c=3*10^9およびranges={[100,200],[50,1000],[3*10^9-1,1000],...}。すべての範囲が閉じていることに注意してください(両端が含まれます)。また、整数(全体の単位)のみを扱うことに注意してください。 特定のnマッピング範囲で覆われている円上の領域を探しています。したがってx、円上の与えられた長さの範囲がカバーされているかどうかをテストするために、n範囲がランダムにマッピングされるという仮説をテストします。マッピングされた長さの範囲が指定された長さの範囲をq&gt;x完全にカバーする確率xは(q-x)/cです。この確率cは、大きい場合や小さい場合に非常に小さくなりますq。私が興味を持っているのは、nをカバーする範囲の数(範囲外)xです。これがY形成される方法です。 帰無仮説と片側の代替(アンダーカバー)をテストします。また、複数の仮説(異なるx長さ)をテストしていることにも注意してください。これを必ず修正してください。

3
変換された変数の密度の直感的な説明?
仮定 PDFとランダム変数である。次に、確率変数の確率密度関数はXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y&lt;0fY(y)={12y(fX(y)+fX(−y))y≥00y&lt;0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} この背後にある計算を理解しています。しかし、私は微積分を知らない人にそれを説明する方法を考えています。特に、因子が前面に現れる理由を説明しようとしています。私はそれに刺します:1y√1y\frac{1}{\sqrt{y}} 仮定ガウス分布を有します。pdfのほぼすべての重みは、値と間ですただし、 0〜9にマップされます。そのため、のpdfの重い重みは、への変換の値のより広い範囲にわたって拡張されています。したがって、が真のpdfであるためには、余剰重量を乗数因子だけ小さくする必要がありますXXX−3−3-33.3.3.YYYXXXYYYfY(y)fY(y)f_Y(y)1y√1y\frac{1}{\sqrt{y}} それはどのように聞こえますか? 誰かが自分自身のより良い説明を提供したり、文書や教科書のいずれかへのリンクを提供できれば、とても感謝しています。この変数変換の例は、いくつかのイントロ数学的確率/統計の本にあります。しかし、私はそれで直感的な説明を見つけることはありません:(

2
1つの確率変数の関数の分散
既知の分散と平均を持つランダム変数があるとしましょう。問題は、与えられた関数f の分散は何ですか?私が知っている唯一の一般的な方法はデルタ法ですが、近似のみを提供します。今、私はに興味がありますが、いくつかの一般的な方法を知っておくといいでしょう。XXXf(X)f(X)f(X)f(x)=x−−√f(x)=xf(x)=\sqrt{x} 編集2010年12月29日 私はテイラー級数を使用していくつかの計算を行ってきたが、私は誰かができれば、私は喜んでいると思いますので、彼らは、正しいかどうかわからないんだけど、確認し、それらを。 まず、を近似する必要がありますE[f(X)]E[f(X)]E[f(X)] E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2]=f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot f''(\mu)\cdot Var[X] これで、 E [(f(X)-E [f(X)])^ 2] \ approx E [(f(\ mu)+ f '(\ mu)( X- \ mu)+ \ frac {1} {2} \ cdot f ''(\ mu)(X- \ mu)^ 2 -E [f(X)])^ 2]E [ (F (X )- E [ F (X …

1
時系列上の混合効果モデルからの予測値の合計の分散
時系列の予測を行う混合効果モデル(実際には一般化された加算混合モデル)があります。自己相関に対抗するために、データが欠落しているという事実から、corCAR1モデルを使用します。データは私に総負荷を与えることになっているので、予測区間全体で合計する必要があります。ただし、その合計負荷の標準誤差の推定値も取得する必要があります。 すべての予測が独立している場合、これは次の方法で簡単に解決できます。 with V a r (E [ X i ] )= S E (E [ X i ] )2Va r (∑ni = 1E[ X私] )= ∑ni = 1Va r (E[ X私] )Var(∑私=1nE[バツ私])=∑私=1nVar(E[バツ私])Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i])Va r (E[ X私] )= SE(E[ X私] )2Var(E[バツ私])=SE(E[バツ私])2Var(E[X_i]) = SE(E[X_i])^2 問題は、予測値がモデルからのものであり、元のデータに自己相関があることです。問題全体が次の質問につながります。 計算された予測のSEは、その予測の期待値の分散のルートとして解釈できると仮定して正しいですか?私は、予測を「平均予測」として解釈する傾向があるため、平均のセット全体を合計します。 この問題に自己相関を組み込むにはどうすればよいですか、または結果にあまり影響を与えないと安全に想定できますか? これはRの例です。実際のデータセットには約34.000の測定値があるため、スケーラビリティが問題になります。それが、私が毎月内に自己相関をモデル化する理由です。そうしないと、計算が不可能になります。それは最も正しい解決策ではありませんが、最も正しい解決策は実行不可能です。 set.seed(12) require(mgcv) …

3
XとYが無相関の場合、X ^ 2とYも無相関ですか?
2つの確率変数とが無相関の場合、とが無相関であることもわかりますか?私の仮説はイエスです。Y X 2 YXXXYYYX2X2X^2YYY E [ X Y ] = E [ X ] E [ Y ]X,YX,YX, Y無相関は、またはE[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[ XY] = ∫x yfバツ(x )fY(y)dx dy= ∫x fバツ(x )dX ∫yfY(y)dy= E[ X] E[ Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] それは次のことも意味しますか? E[ X2Y] = ∫バツ2yfバツ(x )fY(y)dx dy= ∫バツ2fバツ(x )dX ∫yfY(y)dy= E[ …

4
分布の不均一性をどのように測定しますか?
私が実行している実験の分布の不均一性を測定するためのメトリックを考えています。ほとんどの場合、均一に分布するランダム変数があり、変数が一定のマージン内で均一に分布していないデータセットの例を識別(および場合によってはその程度を測定)できるようにしたいと思います。 私が測定している何かの発生頻度を表す10の測定値を持つ3つのデータシリーズの例は、次のようなものです。 a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] &lt;-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] cのような分布をaやbのような分布と区別し、均一な分布からのcの偏差を測定できるようにしたいと思います。同様に、分布がどの程度均一であるか(標準偏差がゼロに近い?)のメトリックがある場合は、おそらくそれを使用して分散の大きいものを区別できます。ただし、上記のcの例のように、データには1つまたは2つの外れ値しかない場合があり、そのように簡単に検出できるかどうかはわかりません。 …

3
Brain-teaser:均一な[0,1]分布から引き出されたときに単調に増加しているiidシーケンスの予想される長さは何ですか?
これは、ここで報告されている定量アナリストの立場に対するインタビューの質問です。均一な分布から描画し、描画がiidであると仮定すると、単調に増加する分布の予想される長さは何ですか?つまり、現在の描画が前の描画以下である場合、描画を停止します。[0,1][0,1][0,1] 最初の数個を取得しました: \ Pr (\ text {length} = 2)= \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \、\ mathrm {d} x_2 \、\ mathrm {d} x_1 = 1/3 \ Pr(\ text {length} = 3)= \ int_0 ^ 1 \ int_ {x_1} ^ …

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 &gt; library(gam) &gt; summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.