統計とビッグデータ linear

1

確率密度関数を持つ分布から引き出されたランダムなベクトルがあるとしましょう。我々は直線フルランク、それを変換した場合行列取得するその後の密度によって与えられる。F → X（ → X）N×NA → Y =A → X → Y F → Y（ → Y）=1バツ⃗ ∈ RんX→∈Rn\vec{X} \in \mathbb{R}^nfバツ⃗ （x⃗ ）fX→(x→)f_\vec{X}(\vec{x})n × nn×nn \times nあAAY⃗ = A X⃗ Y→=AX→\vec{Y} = A\vec{X}Y⃗ Y→\vec{Y}fY⃗ （y⃗ ）= 1| det A |fバツ⃗ （A− 1y⃗ ）。fY→(y→)=1|detA|fX→(A−1y→). f_{\vec{Y}}(\vec{y}) = \frac{1}{\left|\det A\right|}f_{\vec{X}}(A^{-1}\vec{y}). ここで、代わりにバツ⃗ X→\vec{X}をm × …

12 references random-variable pdf linear

5

混合効果モデルを使用するのはいつですか？

線形混合効果モデルは、グループで収集および要約されるデータの線形回帰モデルの拡張です。主な利点は、係数が1つ以上のグループ変数に対して変化する可能性があることです。しかし、混合効果モデルをいつ使用するかと悩んでいますか？極端なケースのおもちゃの例を使用して、質問を詳しく説明します。動物の身長と体重をモデル化し、種をグループ化変数として使用するとします。異なるグループ/種が本当に異なる場合。犬と象を言う。混合効果モデルを使用する意味はないと思います。グループごとにモデルを作成する必要があります。異なるグループ/種が本当に類似している場合。雌犬と雄犬と言います。モデルのカテゴリ変数として性別を使用したいと思うかもしれません。では、中間のケースでは混合効果モデルを使用する必要があると思いますか？たとえば、グループは猫、犬、ウサギで、サイズは似ていますが異なる動物です。混合効果モデルをいつ使用するか、つまりどのように線を引くかを示唆する正式な議論はありますか各グループのモデルを構築する混合効果モデルグループを回帰のカテゴリ変数として使用する私の試み：方法1は最も「複雑なモデル」/自由度が低く、方法3は最も「単純なモデル」/自由度が高いです。そして、混合効果モデルが真ん中にあります。Bais Variance Trade Offに従って、適切なモデルを選択するために必要なデータ量と複雑なデータを検討する場合があります。

11 regression mixed-model random-effects-model linear

1

線形回帰の最小二乗推定の方程式を*通常の方程式*と呼ぶのはなぜですか？

線形回帰のパラメーターを推定する場合、線形モデルに未知数が含まれているのと同じ数の正規方程式を作成します。これらの方程式が正規方程式と呼ばれるのはなぜですか？

11 regression least-squares terminology linear

2

Kerasの単純な線形回帰

この質問を見た後：Kerasを使用して線形回帰をエミュレートすることを試みて、私は勉強の目的で、そして私の直感を発展させるために、自分の例を転がそうとしました。単純なデータセットをダウンロードし、1つの列を使用して別の列を予測しました。データは次のようになります。これで、単一の1ノードの線形レイヤーを持つ単純なケラスモデルを作成し、その上で勾配降下法を実行しました。 from keras.layers import Input, Dense from keras.models import Model inputs = Input(shape=(1,)) preds = Dense(1,activation='linear')(inputs) model = Model(inputs=inputs,outputs=preds) sgd=keras.optimizers.SGD() model.compile(optimizer=sgd ,loss='mse',metrics=['mse']) model.fit(x,y, batch_size=1, epochs=30, shuffle=False) そのようなモデルを実行すると、nanすべてのエポックで損失が出ます。 jupyterノートブックへのリンクだから私はものを試してみることに決めました、そして私が途方もなく小さい学習率を使用する場合にのみまともなモデルを得るsgd=keras.optimizers.SGD(lr=0.0000001)：なぜこれが起こっているのですか？私が直面するすべての問題に対して、このように手動で学習率を調整する必要がありますか？ここで何か悪いことをしていますか？これは可能な限り簡単な問題だと思いますよね？ありがとう！

11 regression machine-learning neural-networks linear keras

1

線形回帰予測子を追加するとR 2乗が減少します

私のデータセット（）従属変数（DV）、5つの独立した"ベースライン"変数（P1、P2、P3、P4、P5）と関心の独立変数（Q）を有します。N≈10,000N≈10,000N \approx 10,000 次の2つのモデルに対してOLS線形回帰を実行しました。 DV ~ 1 + P1 + P2 + P3 + P4 + P5 -> R-squared = 0.125 DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q -> R-squared = 0.124 つまり、予測子Qを追加すると、線形モデルで説明される分散の量が減少します。私の知る限り、これは起こらないはずです。明確にするために、これらはR二乗値であり、調整済みR 二乗値ではありません。 JaspとPythonのstatsmodelsを使用して、R二乗値を検証しました。この現象が発生する理由はありますか？たぶん、OLS法に関連するものはありますか？

10 regression linear r-squared

4

コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか？

コックス比例ハザードモデルから生存曲線をどのように解釈しますか？このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか？または両方が間違っていますか？200200200 ステートメント1：被験者は20％残ります（たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです）。 100010001000200200200200200200 ステートメント2：特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

2

まだ同じファミリーのメンバーである2つのランダムな非法線の線形結合

2つのランダムな正規変数の線形結合もランダムな正規変数であることはよく知られています。この特性を共有する一般的な非正規分布ファミリ（たとえば、ワイブル）はありますか？多くの反例があるようです。たとえば、ユニフォームの線形結合は通常は均一ではありません。特に、次の両方が当てはまる非正規分布ファミリはありますか？そのファミリーからの2つの確率変数の線形結合は、そのファミリーのある分布と同等です。結果のパラメーターは、元のパラメーターと線形結合の定数の関数として識別できます。この線形結合に特に興味があります。 Y=X1⋅w+X2⋅(1−w2)−−−−−−−√Y=X1⋅w+X2⋅(1−w2)Y = X_1 \cdot w + X_2 \cdot \sqrt{(1-w^2)} ここで、とはパラメーターと持ついくつかの非正規ファミリーからサンプリングされ、はパラメーター持つ同じ非正規ファミリーかられます。X1X1X_1X2X2X_2θ1θ1\theta_1θ2θ2\theta_2YYYθY=f(θ1,θ2,w)θY=f(θ1,θ2,w)\theta_Y = f(\theta_1, \theta_2, w) ここでは、簡単にするために1つのパラメーターを持つ配布ファミリーについて説明しますが、複数のパラメーターを持つ配布ファミリーに開放的です。また、とに十分なパラメータ空間があり、シミュレーションの目的で使用できる例を探しています。非常に特定のおよびで機能する例のみを見つけることができる場合、それはあまり役に立ちません。θ1θ1\theta_1θ2θ2\theta_2θ1θ1\theta_1θ2θ2\theta_2

9 distributions linear

2

ランダム性なしでロジスティック回帰をシミュレートすることは可能ですか？

私たちは、私たちが作る意味し、ランダムずに線形回帰をシミュレートすることができの代わりに、。次に、線形モデルを当てはめると、係数は「グラウンドトゥルース」と同じになります。例を示します。Y = X β + εy=Xβy=Xβy=X\betay=Xβ+ϵy=Xβ+ϵy=X\beta+\epsilon set.seed(0) n <- 1e5 p <- 3 X <- matrix(rnorm(n*p), ncol=p) beta <- runif(p) # y <- X %*% beta + rnorm(n)*0.5 # remove the randomness y <- X %*% beta dat <- data.frame(y=y, x=X) lm.res = lm(y ~ .-1, data=dat) norm(as.matrix(lm.res$coefficients - beta)) …

8 r logistic regularization linear separation

3

分布を見つけて正規分布に変換する

1時間にイベントが発生する頻度（「1時間あたりの数」、nph）とイベントが持続する時間（「1秒あたりの秒数」、dph）を説明するデータがあります。これは元のデータです： nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

スロープパラメータの推定の期待値と分散は、

Devoreの "Probability and Statistics"というテキストを読んでいます。推定の期待値と分散：私は、ページ740の2つの項目で探していますβ1β1\beta_1線形回帰で、スロープパラメータであるYi=β0+β1Xi+ϵiYi=β0+β1Xi+ϵiY_i = \beta_0 + \beta_1 X_i + \epsilon_i。ϵiϵi\epsilon_iガウス分布である（μ=0,variance=σ2μ=0,variance=σ2\mu = 0, variance=\sigma^2）確率変数とϵiϵi\epsilon_i独立しています。推定値β1β1\beta_1：のように表すことができるβ1^=∑(xi−x¯)(Yi−Y¯)∑(xi−x¯)2=∑(xi−x¯)YiSxxβ1^=∑(xi−x¯)(Yi−Y¯)∑(xi−x¯)2=∑(xi−x¯)YiSxx\hat{\beta_1} = \frac{\sum (x_i - \bar{x}) (Y_i - \bar{Y})}{\sum(x_i-\bar{x})^2} = \frac{\sum (x_i - \bar{x})Y_i}{S_{xx}}であり、ここでSxx=∑(xi−x¯)2Sxx=∑(xi−x¯)2S_{xx} = \sum (x_i - \bar{x})^2。だから、私の質問は：どのように私は、派生んE(β1^)E(β1^)E(\hat{\beta_1})とVar(β1^)Var(β1^)Var(\hat{\beta_1})？本は既に結果を与えた：E(β1^)=β1E(β1^)=β1E(\hat{\beta_1}) = \beta_1およびVar(β1^)=σ2SxxVar(β1^)=σ2SxxVar(\hat{\beta_1}) = \frac{\sigma^2}{S_xx}。派生での私の仕事：E(∑(xi−x¯)YiSxx)=E(∑(xi−x¯)(β0+β1xi+ϵ)Sxx)=E(∑(xi−x¯)β1xiSxx)E(∑(xi−x¯)YiSxx)=E(∑(xi−x¯)(β0+β1xi+ϵ)Sxx)=E(∑(xi−x¯)β1xiSxx)E\left(\frac{\sum (x_i - \bar{x})Y_i}{S_{xx}}\right) = E\left(\frac{\sum (x_i - \bar{x})(\beta_0 + \beta_1 x_i + …

8 regression self-study linear

2

問題は何ですか？

これが線形方程式問題の解法であることを知っています。しかし、私の質問は、なぜ観測数が予測子数よりも少ないことが問題なのか、どうしてそのようなことが起こり得るのでしょうか。データ収集は、彼らが少なくともこのことについて考えている範囲で、繊細な調査計画または実験計画から来ていませんか？データ収集で45の変数を収集して調査を行う場合、なぜ彼は45未満の観測値を収集するのでしょうか。私は何かを見逃しましたか？モデル選択部分は応答の非改善変数も排除しましたが、収集された変数は常に排除されますか？ 45−(45−p)45−(45−p)45-(45-p) それでは、なぜそのような場合に非固有のソリューションに直面するのでしょうか。

7 dimensionality-reduction linear matrix linear-algebra regression-strategies

2

線形回帰の可能性

単純な線形回帰の可能性を人々がどのように導き出すかを理解しようとしています。1つの特徴xと結果yだけがあるとしましょう。私はないではない通常の密度自体で式を疑う私も疑問1が原因独立にシンプルな要因に製品を因数分解できることをしないでください。人々がこの表現をどのように導き出したのか疑問です。入力およびほぼすべての場所について（部分的に正しくない）仮定の全体の動物園があり、実際に正しい仮定を使用する必要がある重要なステップ（通常の密度の積を導出する方法）は省略されています:-( 私は仮定のが自然だと思うことは以下の通りである。我々は、固定されたトレーニングセット与えられていると仮定します(xi,yi)i=1,2,...,n(xi,yi)i=1,2,...,n(x_i, y_i)_{i=1,2,...,n} 長さ固定トレーニングセット内のペアは、iid分散されたランダム変数からのもの(xi,yi)(xi,yi)(x_i, y_i)nnn(Xi,Yi)(Xi,Yi)(X_i, Y_i) Yi=β0Xi+ϵiYi=β0Xi+ϵiY_i = \beta_0 X_i + \epsilon_i ϵiϵi\epsilon_i各として分散一次元IIDランダム変数でN(0,σ)N(0,σ)\mathcal{N}(0, \sigma)とσσ\sigma（簡単にするために）知られている（多分1条件濃度約ものと仮定すべきであるfϵi|Xifϵi|Xif_{\epsilon_i|X_i}ここ？人々は実際にここで何を仮定するべきか不確かに思われる...）レッツとlet。目標は、条件付き密度です。明らかに、 Y=(Y1,...,Yn)Y=(Y1,...,Yn)Y = (Y_1, ..., Y_n)X=(X1,...,Xn)X=(X1,...,Xn)X = (X_1, ..., X_n)fY|X=f(Y,X)fXfY|X=f(Y,X)fXf_{Y|X} = \frac{f_{(Y,X)}}{f_X}fY|X=∏i=1nfYi|XifY|X=∏i=1nfYi|Xif_{Y|X} = \prod_{i=1}^n f_{Y_i|X_i} 質問：ここから先に進むには？仮定がまたはに関する情報をどのように与えるかわかりませんそのため、この量を単純に計算できません。また、一部の人々は、および正規分布している（または正規分布している）とは、も正規分布していると考えているかもしれませんが、...f(Yi,Xi)f(Yi,Xi)f_{(Y_i, X_i)}fXifXif_{X_i}fYi|Xi=f(Yi,Xi)fXifYi|Xi=f(Yi,Xi)fXif_{Y_i|X_i} = \frac{f_{(Y_i, X_i)}}{f_{X_i}}Yi=β0Xi+ϵiYi=β0Xi+ϵiY_i = \beta_0 X_i + \epsilon_iϵiϵi\epsilon_iϵi|Xiϵi|Xi\epsilon_i|X_iYi|XYi|XY_i|X 正規分布のランダム変数に関するステートメントがありますが、次のようになりますが正規分布で、が固定行列の場合、は通常再分布されます。上記の場合、はであり、定数行列ではありません。XXXA,BA,BA, BAX+BAX+BAX+BBBBβ0Xiβ0Xi\beta_0 X_i 他の情報源は、は通常すぐに配布されると想定しているようです。これは奇妙な仮定のようです...実際のデータセットでそれをどのようにテストできるでしょうか？fYi|XifYi|Xif_{Y_i|X_i} よろしくお願いいたします。 FW

7 regression probability linear-model likelihood linear

2

大規模なデータで不正な変数をすばやく検出するにはどうすればよいですか？

数百万行、数千列のデータセットがあり、タスクはバイナリ分類であるとします。ロジスティック回帰モデルを実行すると、パフォーマンスは予想よりもはるかに優れています（たとえば、ほぼ完全な分類）。データに不正な変数があると思われますが、どうすればすばやく検出できますか？ここで不正な変数とは、応答を非常に示す変数であり、使用すべきではありません。たとえば、ユーザーがカスタマーサービスに電話をかけた場合に使用して、その人が製品を購入したかどうかを予測します。

7 algorithms linear large-data high-dimensional

3

GLMは「パラメーターで線形」でなければなりません

「パラメータの線形」が何を意味するのかについて、いくつかの認知的不協和音が発生しています。たとえば、こことここ。たとえば、私の理解は yi=β0+β1β2x1+exp(β3)(x2)2+ϵyi=β0+β1β2x1+exp⁡(β3)(x2)2+ϵy_i = \beta_0 + \beta_1\beta_2x_1 + \exp(\beta_3)(x_2)^2 + \epsilon 2つのパラメーター変数が一緒に乗算されているため（つまり、 β1,β2β1,β2{\beta_1, \beta_2}）。もし β1β1\beta_1 （言う）に置き換えられました γ1γ1\gamma_1、定数です。誰かがこの点を明確にできるかどうか感謝します。

7 generalized-linear-model linear parameterization

タグ付けされた質問 「linear」

タグ付けされた質問「linear」