統計とビッグデータ random-variable

8

シミュレーション研究のために、既存の変数に対する事前定義された（母集団）相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。アイデアや既存の機能へのリンクを歓迎します！結論：さまざまなソリューションで、2つの有効な答えが出ました。カラカルによるR スクリプト。事前定義された変数との正確な（サンプル）相関を持つランダム変数を計算します事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加：質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

8

「ランダム変数」とはどういう意味ですか？

「ランダム変数」と言うとき、彼らはどういう意味ですか？

69 mathematical-statistics random-variable intuition definition

6

確率の収束とほぼ確実な収束

これら2つの収束の尺度の違いを実際に見たことはありません。（または、実際には、さまざまなタイプの収束のいずれかですが、特にこれらの2つは、多数の弱法則と強力な法則のために言及しています。）確かに、私はそれぞれの定義を引用し、それらが異なる場合の例を与えることができますが、それでもまだよくわかりません。違いを理解する良い方法は何ですか？なぜ違いが重要なのですか？それらが異なる特に記憶に残る例はありますか？

67 probability random-variable

4

ランダム変数のセットの最小値はどのように分布しますか？

場合は独立した同一に分布する確率変数は、何がの分布について語ったことができている一般的には？X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

4

XとXYのランダム変数間の相関係数が0.7になる傾向があるのはなぜですか

ダグラス・アルトマンが285ページで書いている医学研究のための実践統計から取られた： ... XとYの2つの数量について、XはXYと相関します。実際、XとYが乱数のサンプルであっても、XとXYの相関関係は0.7であると予想されます。私はRでこれを試しましたが、そうであるようです： x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu) 何故ですか？この背後にある理論は何ですか？

49 correlation random-variable intuition

6

iidランダム変数とは何ですか？

iid（独立しており、まったく同じように配布されている）を技術者以外の人にどのように説明しますか？

49 random-variable intuition

1

複数のランダム変数の積の分散

2つの独立変数の答えを知っています： V a r（XY）= E（X2Y2）− （E（XY））2= V a r（X）V a r（Y）+ V a r（X）（E（Y））2+ V a r（Y）（E（X））2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 しかし、3つ以上の変数の積をとると、各変数の分散と期待値の観点から答えはどうなりますか？V a r（ X1バツ2⋯ Xn）Var(X1X2⋯Xn){\rm Var}(X_1X_2 \cdots X_n)

44 variance random-variable independence

9

ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか？

YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Pr(Y<=k)Pr(Y<=k)\Pr(Y<=k)（kkkが指定されている）などのクエリにすばやく応答することに興味があります。現在、私はそのような質問に答えるためにランダムシミュレーションを使用しています。p_iに従って各X_iをランダムに描画XiXiX_iし、すべてのX_i値を合計してY 'を取得します。このプロセスを数千回繰り返し、時間の小数部分\ Pr（Y '\ leq k）を返します。pipip_iXiXiX_iY′Y′Y'Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k) 明らかに、これは完全に正確ではありません（ただし、シミュレーションの数が増えると精度は大幅に向上します）。また、使用シミュレーションを回避するのに十分な分布に関するデータがあるようです。正確な確率\ Pr（Y \ leq k）を取得する合理的な方法を考えることができますPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)か？ PS PerlとRを使用しています。編集回答に続いて、私はいくつかの説明が必要かもしれないと思った。問題の設定について簡単に説明します。円周cとnそれにマッピングされた一連の範囲を持つ円形ゲノムが与えられます。たとえば、c=3*10^9およびranges={[100,200],[50,1000],[3*10^9-1,1000],...}。すべての範囲が閉じていることに注意してください（両端が含まれます）。また、整数（全体の単位）のみを扱うことに注意してください。特定のnマッピング範囲で覆われている円上の領域を探しています。したがってx、円上の与えられた長さの範囲がカバーされているかどうかをテストするために、n範囲がランダムにマッピングされるという仮説をテストします。マッピングされた長さの範囲が指定された長さの範囲をq>x完全にカバーする確率xは(q-x)/cです。この確率cは、大きい場合や小さい場合に非常に小さくなりますq。私が興味を持っているのは、nをカバーする範囲の数（範囲外）xです。これがY形成される方法です。帰無仮説と片側の代替（アンダーカバー）をテストします。また、複数の仮説（異なるx長さ）をテストしていることにも注意してください。これを必ず修正してください。

38 r distributions binomial random-variable poisson-binomial

3

変換された変数の密度の直感的な説明？

仮定 PDFとランダム変数である。次に、確率変数の確率密度関数はXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} この背後にある計算を理解しています。しかし、私は微積分を知らない人にそれを説明する方法を考えています。特に、因子が前面に現れる理由を説明しようとしています。私はそれに刺します：1y√1y\frac{1}{\sqrt{y}} 仮定ガウス分布を有します。pdfのほぼすべての重みは、値と間ですただし、 0〜9にマップされます。そのため、のpdfの重い重みは、への変換の値のより広い範囲にわたって拡張されています。したがって、が真のpdfであるためには、余剰重量を乗数因子だけ小さくする必要がありますXXX−3−3-33.3.3.YYYXXXYYYfY(y)fY(y)f_Y(y)1y√1y\frac{1}{\sqrt{y}} それはどのように聞こえますか？誰かが自分自身のより良い説明を提供したり、文書や教科書のいずれかへのリンクを提供できれば、とても感謝しています。この変数変換の例は、いくつかのイントロ数学的確率/統計の本にあります。しかし、私はそれで直感的な説明を見つけることはありません:(

37 random-variable pdf intuition

2

1つの確率変数の関数の分散

既知の分散と平均を持つランダム変数があるとしましょう。問題は、与えられた関数f の分散は何ですか？私が知っている唯一の一般的な方法はデルタ法ですが、近似のみを提供します。今、私はに興味がありますが、いくつかの一般的な方法を知っておくといいでしょう。XXXf(X)f(X)f(X)f(x)=x−−√f(x)=xf(x)=\sqrt{x} 編集2010年12月29日私はテイラー級数を使用していくつかの計算を行ってきたが、私は誰かができれば、私は喜んでいると思いますので、彼らは、正しいかどうかわからないんだけど、確認し、それらを。まず、を近似する必要がありますE[f(X)]E[f(X)]E[f(X)] E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2]=f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot f''(\mu)\cdot Var[X] これで、 E [（f（X）-E [f（X）]）^ 2] \ approx E [（f（\ mu）+ f '（\ mu）（ X- \ mu）+ \ frac {1} {2} \ cdot f ''（\ mu）（X- \ mu）^ 2 -E [f（X）]）^ 2]E [ （F （X ）- E [ F （X …

33 variance random-variable delta-method

1

時系列上の混合効果モデルからの予測値の合計の分散

時系列の予測を行う混合効果モデル（実際には一般化された加算混合モデル）があります。自己相関に対抗するために、データが欠落しているという事実から、corCAR1モデルを使用します。データは私に総負荷を与えることになっているので、予測区間全体で合計する必要があります。ただし、その合計負荷の標準誤差の推定値も取得する必要があります。すべての予測が独立している場合、これは次の方法で簡単に解決できます。 with V a r （E [ X i ] ）= S E （E [ X i ] ）2Va r （∑ni = 1E[ X私] ）= ∑ni = 1Va r （E[ X私] ）Var（∑私=1nE[バツ私]）=∑私=1nVar（E[バツ私]）Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i])Va r （E[ X私] ）= SE（E[ X私] ）2Var（E[バツ私]）=SE（E[バツ私]）2Var(E[X_i]) = SE(E[X_i])^2 問題は、予測値がモデルからのものであり、元のデータに自己相関があることです。問題全体が次の質問につながります。計算された予測のSEは、その予測の期待値の分散のルートとして解釈できると仮定して正しいですか？私は、予測を「平均予測」として解釈する傾向があるため、平均のセット全体を合計します。この問題に自己相関を組み込むにはどうすればよいですか、または結果にあまり影響を与えないと安全に想定できますか？これはRの例です。実際のデータセットには約34.000の測定値があるため、スケーラビリティが問題になります。それが、私が毎月内に自己相関をモデル化する理由です。そうしないと、計算が不可能になります。それは最も正しい解決策ではありませんが、最も正しい解決策は実行不可能です。 set.seed(12) require(mgcv) …

32 mixed-model variance random-variable

3

XとYが無相関の場合、X ^ 2とYも無相関ですか？

2つの確率変数とが無相関の場合、とが無相関であることもわかりますか？私の仮説はイエスです。Y X 2 YXXXYYYX2X2X^2YYY E [ X Y ] = E [ X ] E [ Y ]X,YX,YX, Y無相関は、またはE[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[ XY] = ∫x yfバツ（x ）fY（y）dx dy= ∫x fバツ（x ）dX ∫yfY（y）dy= E[ X] E[ Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] それは次のことも意味しますか？ E[ X2Y] = ∫バツ2yfバツ（x ）fY（y）dx dy= ∫バツ2fバツ（x ）dX ∫yfY（y）dy= E[ …

29 random-variable independence

4

分布の不均一性をどのように測定しますか？

私が実行している実験の分布の不均一性を測定するためのメトリックを考えています。ほとんどの場合、均一に分布するランダム変数があり、変数が一定のマージン内で均一に分布していないデータセットの例を識別（および場合によってはその程度を測定）できるようにしたいと思います。私が測定している何かの発生頻度を表す10の測定値を持つ3つのデータシリーズの例は、次のようなものです。 a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] cのような分布をaやbのような分布と区別し、均一な分布からのcの偏差を測定できるようにしたいと思います。同様に、分布がどの程度均一であるか（標準偏差がゼロに近い？）のメトリックがある場合は、おそらくそれを使用して分散の大きいものを区別できます。ただし、上記のcの例のように、データには1つまたは2つの外れ値しかない場合があり、そのように簡単に検出できるかどうかはわかりません。 …

28 distributions variance random-variable uniform

3

Brain-teaser：均一な[0,1]分布から引き出されたときに単調に増加しているiidシーケンスの予想される長さは何ですか？

これは、ここで報告されている定量アナリストの立場に対するインタビューの質問です。均一な分布から描画し、描画がiidであると仮定すると、単調に増加する分布の予想される長さは何ですか？つまり、現在の描画が前の描画以下である場合、描画を停止します。[0,1][0,1][0,1] 最初の数個を取得しました： \ Pr （\ text {length} = 2）= \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \、\ mathrm {d} x_2 \、\ mathrm {d} x_1 = 1/3 \ Pr（\ text {length} = 3）= \ int_0 ^ 1 \ int_ {x_1} ^ …

28 probability random-variable expected-value uniform iid

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

タグ付けされた質問 「random-variable」

タグ付けされた質問「random-variable」