統計とビッグデータ r

3

線形判別分析（LDA）のスケーリング値を使用して、線形判別式に説明変数をプロットできますか？

主成分分析で得られた値のバイプロットを使用して、各主成分を構成する説明変数を調べることができます。これは線形判別分析でも可能ですか？提供されている例では、データは「エドガーアンダーソンのアイリスデータ」（http://en.wikipedia.org/wiki/Iris_flower_data_set）です。ここで、虹彩データ： id SLength SWidth PLength PWidth species 1 5.1 3.5 1.4 .2 setosa 2 4.9 3.0 1.4 .2 setosa 3 4.7 3.2 1.3 .2 setosa 4 4.6 3.1 1.5 .2 setosa 5 5.0 3.6 1.4 .2 setosa 6 5.4 3.9 1.7 .4 setosa 7 4.6 3.4 1.4 .3 …

11 r pca multivariate-analysis discriminant-analysis biplot

2

毎日の時系列データで月間効果をモデル化する方法は？

2つの時系列の日次データがあります。1つはサブスクリプションでsign-ups、もう1つはterminationsサブスクリプションです。両方の変数に含まれている情報を使用して、後者を予測したいと思います。これらのシリーズのグラフを見ると、終了が数か月前のサインアップの倍数と相関していることは明らかです。つまり、5月10日にサインアップが急増すると、6月10日、7月10日、8月10日などに終了の増加につながりますが、効果はなくなります。この特定の問題をモデル化するためにどのモデルを採用するかについてのヒントを得たいと思っています。何かアドバイスをいただければ幸いです。これまではVARモデルを考えていましたが、毎月の効果を含める方法がわかりません-非常に高い次数のラグを使用するか、何らかの方法で季節成分を追加しますか？

11 r time-series seasonality var

3

Rで自己相関ランダム値を作成する

時系列として使用される自動相関ランダム値を作成しようとしています。参照する既存のデータはなく、ベクターを最初から作成したいだけです。一方では、もちろん、分布とそのSDを使用したランダムプロセスが必要です。一方、ランダムプロセスに影響を与える自己相関について説明する必要があります。ベクトルの値は、いくつかのタイムラグで強度が減少することと自己相関します。たとえば、lag1には0.5、lag2 0.3、lag1 0.1などがあります。したがって、最終的にベクトルは次のようになります。2、4、7、11、10、8、5、4、2、-1、2、5、9、12、13、10、8、4、3。 1、-2、-5 等々。

11 r time-series random-variable autocorrelation lags

3

2つの勾配の差を計算する方法は？

2本の線が（多かれ少なかれ）平行であるかどうかを理解する方法はありますか？線形回帰から生成された2本の線があり、それらが平行かどうかを知りたいのですが。つまり、この2つの線の傾きの違いを知りたいのです。これを計算するR関数はありますか？編集： ...そして線形回帰直線の傾き（度単位）をどのように取得できますか？

11 r regression interaction linear-model

1

時変共変量を持つ縦混合モデルでの同時および遅延効果のテスト

最近、これらの共変量にタイムラグを導入しないと、時変共変量を縦方向混合モデルに組み込むことはできないと言われました。これを確認/拒否できますか？この状況に関する参考資料はありますか？明確にする簡単な状況を提案します。40人の被験者で量的変数（y、x1、x2、x3）の測定（たとえば30回以上）を繰り返したとします。各変数は、アンケートによって各被験者で30回測定されます。ここで、最終的なデータは、40の被験者にネストされた4 800の観測値（4変数X 30機会X 40被験者）になります。個別にテストしたい（モデル比較用ではない）：同時（同期）効果：時間tのyに対する時間tのx1、x2、およびx3の影響。遅延効果：時間tのyに対する時間t-1のx1、x2、x3の影響。私はすべてが明確であることを望みます（私はネイティブスピーカーではありません！）。たとえば、R lmer {lme4}では、遅延効果のある式は次のとおりです。 lmer(y ~ lag1.x1 + lag1.x2 + lag1.x3 + (1|subject)) ここで、yは時間tでの従属変数lag1.x1、個々のレベルでの遅れた独立変数x1などです。同時効果の場合、式は次のとおりです。 lmer(y ~ x1 + x2 + x3 + (1|subject)) すべてが順調に進んでおり、興味深い結果が得られます。しかし、同期時変共変量を含むlmerモデルを指定するのは正しいですか、それとも何か見落としましたか？編集：さらに、同時効果と遅延効果の両方を同時にテストすることは可能ですか？、例えば： lmer(y ~ x1 + x2 + x3 + lag1.x1 + lag1.x2 + lag1.x3 …

11 r mixed-model lme4-nlme

4

時系列の説明をどうするか？

これまで、主に横断データを扱い、ごく最近では、一連の入門的な時系列文献をつまづいてスキャンしてきました。時系列分析で説明変数がどのような役割を果たしているのでしょうか。トレンド除去ではなくトレンドを説明したいと思います。序論として私が読んだことのほとんどは、シリーズが何らかの確率論的プロセスに由来していることを前提としています。AR（p）とMAプロセス、およびARIMAモデリングについて読みました。自己回帰プロセスだけではなく、より多くの情報を処理したいので、VAR / VECMを見つけていくつかの例を実行しましたが、断面図での説明とより密接に関連するケースがあるかどうか疑問に思います。この背後にある動機は、私のシリーズの分解が傾向が主要な貢献者であることを示している一方で、残りと季節効果がほとんど役割を果たすことはないということです。この傾向を説明したいと思います。複数の異なるシリーズでシリーズを後退させることはできますか？直感的には、シリアル相関のためにglsを使用します（cor構造についてはよくわかりません）。偽の回帰について聞いて、これが落とし穴であることを理解していますが、それでも傾向を説明する方法を探しています。これは完全に間違っているのですか、それとも珍しいのですか？それとも、これまでのところ正しい章を逃しただけですか？

11 r time-series multivariate-analysis

4

R：カイ二乗と自由度を指定してp値を計算する

カイ二乗と自由度を指定してp値を計算するにはどうすればよいですか？たとえば、カイ二乗= 15、df = 2の正確なp値は何でしょうか？

11 r distributions chi-squared

2

回帰：RMSEと比較したRの2乗のユーティリティは何ですか？

トレーニング、検証、テストセットを使用して回帰を行っているとします。ソフトウェアの出力（Rのlm（）関数など）からRMSEとRの2乗（R ^ 2、決定係数）を見つけることができます。私の理解では、テストRMSE（またはMSE）は検証/テスト値の予測の良さの尺度であり、R ^ 2はトレーニングセットの分散をキャプチャする際の適合度の尺度です。現実の世界で私が本当に気にかけているのは、私が見たことのないデータの一般化された予測精度です。それでは、RMSEと比較したR ^ 2値の有用性は何ですか？

11 r regression regression-coefficients r-squared

1

RのキャレットパッケージでPCAを使用して前処理するときの主成分の数

のcaretパッケージRをバイナリSVM分類器のトレーニングに使用しています。機能を削減するためにpreProc=c("pca")、呼び出し時に組み込み機能を使用してPCAで前処理していtrain()ます。ここに私の質問があります：キャレットはどのように主成分を選択するのですか？選択された主成分の数は決まっていますか？主成分は、ある程度の説明された差異（80％など）によって選択されていますか？分類に使用する主成分の数を設定するにはどうすればよいですか？（PCAは信頼できる予測推定を可能にするために外部相互検証の一部であるべきことを理解しています。）PCAは内部相互検証サイクル（パラメーター推定）にも実装する必要がありますか？キャレットは相互検証でPCAをどのように実装しますか？

11 r machine-learning pca cross-validation caret

1

マウスで2l.normを使用した「1次の先行マイナーは正定ではない」エラー

2l.normのマルチレベル代入の方法を使用して問題が発生していmiceます。残念ながら、データのサイズが原因で再現可能な例を投稿することはできません。サイズを小さくすると、問題は消えます。特定の変数について、mice次のエラーと警告を生成します。 Error in chol.default(inv.sigma2[class] * X.SS[[class]] + inv.psi) : the leading minor of order 1 is not positive definite In addition: Warning messages: 1: In rgamma(n.class, n.g/2 + 1/(2 * theta), scale = 2 * theta/(ss * : NAs produced 2: In rgamma(1, n.class/(2 * theta) + 1, …

11 r missing-data multiple-imputation mice

2

Rでのステップ出力の解釈

Rでは、stepコマンドはモデルへの入力変数を選択するのを助けることを意図していると思いますよね？以下はexample(step)#-> swiss＆から来ます step(lm1) > step(lm1) Start: AIC=190.69 Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC - Examination 1 53.03 2158.1 189.86 <none> 2105.0 190.69 - Agriculture 1 307.72 2412.8 195.10 - Infant.Mortality 1 408.75 2513.8 197.03 - Catholic 1 …

11 r self-study stepwise-regression

1

R予測パッケージのTBATSを使用した時系列分解の解釈

以下の時系列データを季節性、トレンド、残差成分に分解したいと思います。データは、商業ビルの1時間ごとの冷却エネルギープロファイルです。 TotalCoolingForDecompose.ts <- ts(TotalCoolingForDecompose, start=c(2012,3,18), freq=8765.81) plot(TotalCoolingForDecompose.ts) したがって、次のアドバイスに基づいて、日ごとと週ごとに明らかな季節的影響があります。複数の季節的要素を持つ時系列を分解する方法、私tbatsはforecastパッケージの関数を使用しました： TotalCooling.tbats <- tbats(TotalCoolingForDecompose.ts, seasonal.periods=c(24,168), use.trend=TRUE, use.parallel=TRUE) plot(TotalCooling.tbats) その結果：このモデルのlevelおよびslopeコンポーネントは何を説明していますか？このパッケージで参照されている論文（De Livera、Hyndman、Snyder（JASA、2011））に似たtrendおよびremainderコンポーネントを入手するにはどうすればよいですか？

10 r time-series forecasting multiple-seasonalities tbats

4

リサンプリングされたデータセットの仮説検定でnullが頻繁に拒否されるのはなぜですか？

tl; dr：nullの下で生成されたデータセットから始めて、置換でケースをリサンプリングし、リサンプリングされた各データセットに対して仮説検定を行いました。これらの仮説検定は、ヌルを5％以上の確率で拒否します。以下の非常に単純なシミュレーションでは、でデータセットを生成し、それぞれに単純なOLSモデルを当てはめます。次に、各データセットについて、元のデータセットの行を置換して再サンプリングすることにより、1000個の新しいデータセットを生成します（Davison＆Hinkleyの古典的なテキストで線形回帰に適していると特に説明されているアルゴリズム）。それらのそれぞれについて、私は同じOLSモデルを適合させました。最終的に、ブートストラップサンプル内の仮説テストの約16％がnullを拒否しますが、5％を取得する必要があります（元のデータセットで行うように）。バツ〜N（0 、1 ）⨿ Y〜N（0 、1 ）X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y \sim N(0,1) 私はそれが膨張した関連を引き起こす繰り返しの観察に関係しているのではないかと思ったので、比較のために、以下のコードで他の2つのアプローチを試しました（コメントアウト）。方法2では、を修正してから、を元のデータセットのOLSモデルからのリサンプリングされた残差で置き換えます。方法3では、置換せずにランダムなサブサンプルを描画します。これらの選択肢はどちらも機能します。つまり、それらの仮説テストでは、ヌルが5％の確率で拒否されます。YバツXXYYY 私の質問：繰り返しの観察が原因だと思いますか？もしそうなら、これがブートストラップへの標準的なアプローチであるとすれば、どこで標準的なブートストラップ理論に正確に違反しているのでしょうか？アップデート＃1：より多くのシミュレーションさらに単純なシナリオである切片のみの回帰モデルを試しました。同じ問題が発生します。YYY # note: simulation takes 5-10 min on my laptop; can reduce boot.reps # and n.sims.run if wanted # set the number of cores: can change this to match your machine library(doParallel) registerDoParallel(cores=8) …

10 r bootstrap simulation resampling

1

PCA固有ベクトルではないベクトルの「固有値」（説明された分散のパーセンテージ）を取得する方法は？

PCAによって提供される座標空間ではなく、わずかに異なる（回転した）ベクトルのセットに対して、データセットの分散のパーセンテージを取得する方法を理解したいと思います。 set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat <- matrix(c(cos(theta), sin(theta), -sin(theta), …

10 r variance pca linear-algebra

1

RでのARIMA時系列の予測値のプロット

この質問には2つ以上の深刻な誤解がある可能性がありますが、それは計算を正しくすることを意味するのではなく、いくつかの焦点を考慮して時系列の学習を動機付けることを目的としています。時系列の適用を理解しようとすると、データのトレンドを排除すると、将来の値を予測するのが不可能になるように見えます。たとえばgtemp、astsaパッケージの時系列は次のようになります。過去数十年間の上昇傾向は、予測される将来の値をプロットするときに考慮に入れる必要があります。ただし、時系列変動を評価するには、データを定常時系列に変換する必要があります。私は（私はこれが原因で途中で実行されると思い差分とARIMAプロセスとしてモデル化した場合1でorder = c(-, 1, -)のように）： require(tseries); require(astsa) fit = arima(gtemp, order = c(4, 1, 1)) 次に、将来の値（年）を予測しようとすると、上昇傾向のコンポーネントが見落とされます。505050 pred = predict(fit, n.ahead = 50) ts.plot(gtemp, pred$pred, lty = c(1,3), col=c(5,2)) 特定のARIMAパラメータの実際の最適化に必ずしも触れずに、プロットの予測された部分の上昇傾向をどのように回復できますか？この非定常性を説明するOLSがどこかに「隠されている」と思われますか？私は、パッケージdriftのArima()機能に組み込むことができるの概念にforecast出会い、もっともらしいプロットをレンダリングします。 par(mfrow = c(1,2)) fit1 = Arima(gtemp, order = c(4,1,1), include.drift = T) future = forecast(fit1, …

10 r time-series data-visualization

タグ付けされた質問 「r」

タグ付けされた質問「r」