統計とビッグデータ

2

私は、PCAとSVDを数学的に計算する方法を知っています。そして、両方が線形最小二乗回帰に適用できることを知っています。 SVDの主な利点は、数学的には、非正方行列に適用できることです。どちらも行列の分解に焦点を当てています。前述のSVDの利点以外に、PCAよりもSVDを使用することで得られる追加の利点や洞察はありますか？バツ⊤バツバツ⊤バツX^\top X 数学的な違いではなく、直感を本当に探しています。

20 pca least-squares svd

1

最良の線形不偏予測器（BLUP）からの推定値が、最良の線形不偏推定器（BLUE）と異なるのはなぜですか？

それらの違いは、モデル内のグループ化変数が固定効果またはランダム効果として推定されるかどうかに関連することを理解していますが、なぜ同じではないのかは分かりません（同じでない場合）。小面積推定を使用する場合、これが関連する場合、これがどのように機能するかに特に興味がありますが、質問は固定効果とランダム効果の適用に関連していると思われます。

20 mixed-model blue blup small-area-estimation

6

「平均」の一般化のために、中央値は平均の一種ですか？

「平均」の概念は、従来の算術平均よりもはるかに広く歩き回ります。中央値を含むまで伸びますか？類推により、 raw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean log⟶log−1geometric meanraw data⟶squaresquares⟶meanmean square⟶square−1root mean squareraw data⟶rankranks⟶meanmean rank⟶rank−1medianraw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean log⟶log−1geometric meanraw data⟶squaresquares⟶meanmean square⟶square−1root mean squareraw data⟶rankranks⟶meanmean rank⟶rank−1median \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} …

20 mean average median

2

因子スコアを計算する方法、およびPCAまたは因子分析の「スコア係数」マトリックスとは何ですか？

私の理解では、相関に基づくPCAでは、変数（この場合は主成分）の負荷を取得しますが、これは変数と因子間の相関にすぎません。SPSSで因子スコアを生成する必要がある場合、各因子の各回答者の因子スコアを直接取得できます。また、「コンポーネントスコア係数行列」（SPSSによって生成される）に標準化された元の変数を掛けると、SPSSから取得したものと同じファクタースコアが得られることも観察しました。「コンポーネントスコア係数マトリックス」または「ファクタースコア係数マトリックス」（ファクターまたはコンポーネントスコアを計算できる）がどのように計算されるかを誰かが理解してくれますか？この行列では、計算係数スコアのさまざまな方法がどのように異なりますか？

20 spss pca factor-analysis

1

限界効果の標準誤差にデルタ法を使用する方法は？

相互作用項を含む回帰モデルの平均限界効果の標準誤差を近似するためのデルタ法をよりよく理解することに興味があります。デルタ方式で関連する質問を見ましたが、探しているものをまったく提供していません。動機付けの例として、次のサンプルデータを検討してください。 set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) との平均限界効果（AME）に興味がx1ありx2ます。これらを計算するには、単に次のことを行います。 cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

20 r regression standard-error effect-size delta-method

1

Rの線形回帰で平均二乗誤差の値を取得する方法

R関数lmによって得られた線形回帰モデルに、平均二乗誤差コマンドによって得られるかどうかを知りたいとします。例の次の出力がありました > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 0.0902 -13.19 <2e-16 *** --- …

20 r regression error

3

ある値に対するモデル係数（回帰勾配）のテスト

Iは、（一般）線形モデルを有する場合、Rは、（、lm、、glm 、...）、どのように0以外の値に対して係数（回帰勾配）をテストすることができますか？モデルの要約では、係数のt検定結果が自動的に報告されますが、これは0との比較のみです。別の値と比較したいと思います。glsglmm ここでテストされた値であるreparametrizing y ~ xasを使用してトリックを使用し、この再パラメーター化されたモデルを実行できることを知っていますが、元のモデルで動作する可能性のある単純なソリューションを探します。y - T*x ~ xT

20 r regression t-test

2

線形変換後のランダムベクトルの共分散

場合ランダムベクトルであり、Aが固定された行列で、誰かが説明できる理由C O V [ A Z ] = A 、C 、O V [ Z ] A ⊤。ZZ\mathbf {Z}AAAcov[AZ]=Acov[Z]A⊤.cov[AZ]=Acov[Z]A⊤.\mathrm{cov}[A \mathbf {Z}]= A \mathrm{cov}[\mathbf {Z}]A^\top.

20 covariance

2

ギブスサンプリングと一般的なMH-MCMC

私はギブスのサンプリングとメトロポリス・ヘイスティングスのアルゴリズムについて読んでいるところですが、いくつか質問があります。私が理解しているように、ギブスサンプリングの場合、大きな多変量問題がある場合、条件付き分布からサンプリングします。つまり、他のすべてを固定したまま1つの変数をサンプリングします。文書によると、提案されたサンプルは常に Gibbs Samplingで受け入れられます。つまり、提案受け入れ率は常に1です。。もしそうなら、事後分布を生成するために常にギブスサンプラーを使用しない理由は何ですか？

20 bayesian sampling mcmc gibbs metropolis-hastings

4

教師なしクラスタリングのための決定木のようなアルゴリズムはありますか？

A、B、C、D、Eの5つの機能で構成されるデータセットがあります。これらはすべて数値です。密度ベースのクラスタリングを実行する代わりに、意思決定ツリーのような方法でデータをクラスター化します。私が意味するアプローチは次のようなものです：アルゴリズムは、特徴Cに基づいてデータをX個の初期クラスターに分割します。つまり、Xクラスターは、小さいC、中程度のC、大きいC、非常に大きいCの値などを持ちます。フィーチャAに基づいてデータをYクラスターに格納します。アルゴリズムは、すべてのフィーチャが使用されるまで続行されます。上で説明したアルゴリズムは、決定木アルゴリズムのようなものです。ただし、教師あり分類ではなく、教師なしクラスタリングに必要です。私の質問は次のとおりです。そのようなアルゴリズムはすでに存在しますか？そのようなアルゴリズムの正しい名前は何ですかこの種のアルゴリズムを実装したR / pythonパッケージ/ライブラリはありますか？

20 r machine-learning clustering cart

2

KKT対投げ縄回帰の制約なし定式化

L1ペナルティ付き回帰（別名lasso）は、2つの形式で表されます。2つの目的関数を 2つの異なる定式化は対象及び、等価 Karush-Kuhn-Tucker（KKT）条件を使用すると、最初の定式化の定常性条件が2番目の定式化の勾配を取得して0に設定するのと同等であることが簡単にわかります。は、最初の定式化の補完的なスラックネス条件であるQ1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, λ （| | β | | 1 − t ） = 0argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. λ(||β||1−t)=0λ(||β||1−t)=0\lambda\left(||\beta||_1 - t\right) = 0、2番目の定式化のソリューションによって満たされることが保証されています。

20 regression lasso penalized

2

Bayesian Survival Analysis：カプラン・マイヤーの事前記事を書いてください！

時刻イベントを使用した、右打ち切りの観測を検討します。時間の影響を受けやすい個人の数はであり、時間のイベントの数はです。i n i i d it1,t2,…t1,t2,…t_1, t_2, \dotsiiininin_iiiididid_i 生存関数がステップ関数場合、Kaplan-Meierまたは積推定量は自然にMLEとして発生します。尤度はあり、MLEはです。 L （α ）= Π I（1 - α I ）D I α N I - D I I α I = 1 - D IS(t)=∏i:ti<tαiS(t)=∏i:ti<tαiS(t) = \prod_{i : t_i < t} \alpha_iL(α)=∏i(1−αi)diαni−diiL(α)=∏i(1−αi)diαini−di L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i} αˆ私= 1 − d私n私α^i=1−dini\widehat\alpha_i …

20 bayesian survival kaplan-meier

3

スプライン結果の解釈

Rを使用してGLMのスプラインを適合させようとしています。スプラインが適合したら、結果のモデルを取得し、Excelブックでモデリングファイルを作成できるようになります。たとえば、yがxのランダム関数であり、特定のポイント（この場合@ x = 500）で勾配が急激に変化するデータセットがあるとします。 set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 df<-as.data.frame(cbind(x,y)) plot(df) 私は今これを使ってフィットします library(splines) spline1 <- glm(y~ns(x,knots=c(500)),data=df,family=Gamma(link="log")) 私の結果は示しています summary(spline1) Call: glm(formula = y ~ ns(x, knots = c(500)), family = Gamma(link = "log"), data = df) Deviance Residuals: Min 1Q Median 3Q Max -4.0849 -0.1124 -0.0111 0.0988 …

20 splines

2

線形回帰係数の標準誤差を導き出す方法

この単変量線形回帰モデルデータセット場合、係数推定はここで私の質問によれば、 bookおよびWikipedia、の標準エラーは方法と理由 D = { （X 1、Y 1）、。。。、（X N、Y N）} β 1 = Σ I X I 、Y I - N ˉ X ˉ Yy私= β0+ β1バツ私+ ϵ私y私=β0+β1バツ私+ϵ私y_i = \beta_0 + \beta_1x_i+\epsilon_iD = { （x1、y1）、。。。、（xn、yn）}D={（バツ1、y1）、。。。、（バツn、yn）}D=\{(x_1,y_1),...,(x_n,y_n)\} β 0= ˉ Y - β 1 ˉ Xβ^1= ∑私バツ私y私− n x¯y¯n …

20 standard-error inference

2

ディープラーニングはどこで、なぜ輝くのですか？

最近のディープラーニングに関するすべてのメディアトークと誇大広告で、私はそれについていくつかの基本的なものを読みました。データからパターンを学習するのは、別の機械学習方法であることがわかりました。しかし、私の質問は次のとおりです。この方法がどこで、なぜ輝くのか。なぜ今それについてのすべての話ですか？つまり、大騒ぎとは何ですか？

20 machine-learning data-mining deep-learning deep-belief-networks