統計とビッグデータ r

2

R（2.15.2）では、時系列にARIMA（3,1,3）を1回、かつ時差のある時系列にARMA（3,3）を1回当てはめました。当てはめられたパラメータは異なります。これは、ARIMAの当てはめ方法に起因します。また、ARMA（3,3）と同じデータにARIMA（3,0,3）をフィッティングしても、使用するフィッティング方法に関係なく、同じパラメーターにはなりません。私は、ARMAと同じ適合係数を得るために、違いがどこから来て、どのパラメーターでARIMAに適合するか（もしあれば）を特定することに興味があります。実証するサンプルコード： library(tseries) set.seed(2) #getting a time series manually x<-c(1,2,1) e<-c(0,0.3,-0.2) n<-45 AR<-c(0.5,-0.4,-0.1) MA<-c(0.4,0.3,-0.2) for(i in 4:n){ tt<-rnorm(1) t<-x[length(x)]+tt+x[i-1]*AR[1]+x[i-2]*AR[2]+x[i-3]*AR[3]+e[i-1]*MA[1]+e[i-2]*MA[2]+e[i-3]*MA[3] x<-c(x,t) e<-c(e,tt) } par(mfrow=c(2,1)) plot(x) plot(diff(x,1)) #fitting different versions. What I would like to get is fit1 with ARIMA() fit1<-arma(diff(x,1,lag=1),c(3,3),include.intercept=F) fit2<-arima(x,c(3,1,3),include.mean=F) fit3<-arima(diff(x,1),c(3,0,3),include.mean=F) fit4<-arima(x,c(3,1,3),method="CSS",include.mean=F) fit5<-arima(diff(x,1),c(3,0,3),method="CSS",include.mean=F) cbind(fit1$coe,fit2$coe,fit3$coe,fit4$coe,fit5$coe) 編集：条件付き二乗和の使用はかなり近づきますが、完全ではありません。fit1のヒントをありがとう！編集2：これは重複しているとは思わない。ポイント2と3は、私のものとは異なる問題に対処し、ポイント1で述べた初期化をオーバーライドしても fit4<-arima(x,c(3,1,3),method="CSS",include.mean=F,init=fit1$coe) 私はまだ異なる係数を取得します

13 r time-series arima fitting arma

1

ロジスティック回帰モデルの評価

私はロジスティックモデルに取り組んでおり、結果を評価するのに苦労しています。私のモデルは二項ロジットです。説明変数は、15レベルのカテゴリ変数、二分変数、および2つの連続変数です。私のNは8000以上です。私は、投資する企業の決定をモデル化しようとしています。従属変数は投資（yes / no）です。15レベルの変数は、マネージャーが報告する投資のさまざまな障害です。残りの変数は、販売、クレジット、および使用済み容量の制御です。以下は、rmsR のパッケージを使用した私の結果です。 Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. 17 g 0.544 Dxy 0.264 2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266 max |deriv| 6e-09 gp 0.119 tau-a 0.118 Brier 0.213 …

13 r logistic goodness-of-fit roc

1

Rを使用したクラスカルワリス検定またはマンホイットニーU検定の電力解析

Kruskal-WallisおよびMann-Whitney Uテストの検出力解析を実行することはできますか？はいの場合、それを実行するRパッケージ/機能はありますか？

13 r nonparametric power-analysis kruskal-wallis

2

summary.glm（）の分散

私はglm.nbを実施しました glm1<-glm.nb(x~factor(group)) groupはカテゴリーで、xは計量変数です。結果の概要を取得しようとすると、summary()またはを使用するかどうかによって、わずかに異なる結果が得られsummary.glmます。summary(glm1)私にくれます ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial(0.7109) family taken to …

13 r generalized-linear-model negative-binomial

1

Rのウィルコクソン順位和検定

2つの独立したサンプルに同じテストを適用した結果があります。 x <- c(17, 12, 13, 16, 9, 19, 21, 12, 18, 17) y <- c(10, 6, 15, 9, 8, 11, 8, 16, 13, 7, 5, 14) そして、ウィルコクソンのランクサムテストを計算します。手作業で統計を計算すると、次のようになります： T W = ∑ rank （X i）= 156.5TWTWT_{W}TW= ∑ ランク（X私）= 156.5TW=∑ランク（バツ私）=156.5 T_{W}=\sum\text{rank}(X_{i}) = 156.5 Rにaを実行させるとwilcox.test(x, y, correct = F)、次のようになります。 W = …

13 r wilcoxon-mann-whitney wilcoxon-signed-rank

4

ヘビーテール分布のBoxplot相当？

ほぼ正規分布のデータの場合、ボックスプロットは、データの中央値と広がり、および異常値の存在をすばやく視覚化する優れた方法です。ただし、より重い裾の分布では、多くのポイントが外れ値として表示されます。これは、外れ値がIQRの固定因子の外側にあると定義されているためです。では、この種のデータを視覚化するために人々は何を使用していますか？もっと適応したものはありますか？それが重要な場合は、Rでggplotを使用します。

13 r distributions data-visualization data-transformation ggplot2

2

線形回帰と非線形回帰

理論的に指数関数的に関連する値xxxとセットがあります。yyy y=axby=axby = ax^b 係数を取得する1つの方法は、両側に自然対数を適用し、線形モデルを近似することです。 > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] これを取得する別の方法は、開始値の理論セットを指定して、非線形回帰を使用することです。 > fit <- nls(y~a*x^b, start=c(a=50, b=1.3)) 私のテストでは、2番目のアルゴリズムを適用すると、より良い理論関連の結果が表示されます。ただし、各方法の統計的な意味と意味を知りたいです。どちらが良いですか？

13 r regression linear-model model-selection nonlinear-regression

1

構造方程式：R lavaanパッケージで相互作用効果を指定する方法

R lavaanパッケージを使用して、構造方程式モデルを推定しています。モデルが、1つの潜在的変数と2つの明示的な説明変数を持つ1つの内在的マニフェスト変数で構成されているとします。 group = {0,1} attitude1 = latent,scale age = respondent's age 目的の溶岩モデルは次のとおりです（機能しません）。 model <- ' attitude1 =~ att1 + att2 + att3 outcome ~ age*group + attitude1*group' 私の目標は、線形回帰でできることの範囲で、各変数とグループの間に主効果と相互作用効果を確立することです。これはできますか？

13 r interaction sem lavaan

4

週平均を保存するインフルエンザデータの補間

編集必要な手順を正確に説明した論文を見つけました。唯一の違いは、月ごとの平均を維持しながら、月ごとの平均データを日ごとに補間することです。でアプローチを実装するのに苦労していRます。ヒントは大歓迎です。元の各週には、次のカウントデータがあります（1週間に1つの値）。医師の診察件数インフルエンザの症例数私の目標は、補間によって毎日のデータを取得することです（線形または切り捨てられたスプラインを考えました）。重要なことは、毎週の平均を保存したいということです。つまり、毎日補間されたデータの平均は、今週の記録値と等しくなるはずです。さらに、補間はスムーズでなければなりません。発生する可能性のある問題の1つは、特定の週の7日未満（たとえば、年の初めまたは終わり）であるということです。この問題に関するアドバイスに感謝します。どうもありがとう。 1995年（更新）のサンプルデータセットを次に示します。 structure(list(daily.ts = structure(c(9131, 9132, 9133, 9134, 9135, 9136, 9137, 9138, 9139, 9140, 9141, 9142, 9143, 9144, 9145, 9146, 9147, 9148, 9149, 9150, 9151, 9152, 9153, 9154, 9155, 9156, 9157, 9158, 9159, 9160, 9161, 9162, 9163, 9164, 9165, 9166, 9167, 9168, …

13 r time-series interpolation

3

Rのバリマックス回転主成分を計算する方法は？

25個の変数でPCAを実行し、を使用して上位7台のPCを選択しましたprcomp。 prc <- prcomp(pollutions, center=T, scale=T, retx=T) 次に、これらのコンポーネントでバリマックス回転を行いました。 varimax7 <- varimax(prc$rotation[,1:7]) そして今、私はvarimaxがPCAで回転されたデータを回転させたいと思っています（これはvarimaxオブジェクトの一部ではなく、負荷行列と回転行列のみです）。これを行うには、回転行列の転置にデータの転置を乗算することを読んだので、これを行っていました： newData <- t(varimax7$rotmat) %*% t(prc$x[,1:7]) しかし、上記の行列転置の次元はそれぞれおよびあるため、それは意味がありません。したがって、行ではなく、行のみの行列がます。ここで私が間違っていることや、最終的な行はどうなりますか？後で転置するだけですか？7 × 16933 7 169337×77×77\times 77×169337×169337 \times 16933777169331693316933

13 r pca factor-rotation

3

Rでのビッグデータのクラスター化とサンプリングの関連性

私はデータサイエンスの初心者であり、Rに200,000行と50列のデータセットでクラスターを見つけるのに問題があります。データには数値変数と名義変数の両方があるため、ユークリッド距離測定を使用するK-meansなどの方法は適切な選択のようには見えません。そこで、距離行列を入力として受け入れるPAM、agnes、hclustを使用します。デイジー方式は混合タイプのデータで機能しますが、距離行列は大きすぎます：200,000 x 200,000は2 ^ 31-1（R 3.0.0より前のベクトル長の制限）よりもはるかに大きいです。昨日リリースされた新しいR 3.0.0は、長さが2 ^ 31-1を超える長いベクトルをサポートしています。しかし、200,000 x 200,000のダブルマトリックスには、16Gbを超える連続RAMが必要であり、これは私のマシンでは不可能です。並列コンピューティングとbigmemoryパッケージについて読みましたが、それらが役立つかどうかはわかりません。デイジーを使用している場合、メモリに収まらない大きなマトリックスが生成されます。サンプリングに関する投稿についても読みました。「ビッグデータ」の時間にサンプリングは関連していますか？だから私の場合、データセットでサンプリングを使用し、サンプルでクラスター化し、データセット全体の構造を推測するのは適切ですか？提案をお願いします。ありがとうございました！私のマシンについて： Rバージョン3.0.0（2013-04-03）プラットフォーム：x86_64-w64-mingw32 / x64（64ビット） OS：Windows 7 64ビット RAM：16.0GB

13 r clustering sampling large-data

1

一般化線形モデルの偏差に対する線形モデルのR二乗？

この質問に対する私のコンテキストは次のとおりです。私が知ることができることから、加重データとsurveyパッケージを使用する場合、Rで通常の最小二乗回帰を実行することはできません。ここではsvyglm()、代わりに一般化線形モデルを実行するを使用する必要があります（これは同じものかもしれません。ここでは、何が違うのかという点であいまいです）。 OLS lm()では、関数を使用してRの2乗値を計算しますが、その解釈は理解できます。しかし、svyglm()これを計算していないようで、代わりに偏差を与えます。これは、インターネットを巡回する短い旅行で、Rの2乗とは異なる解釈の適合度の尺度であるとわかります。だから私は基本的に、何らかの方向性を得ることを望んでいた2つの質問があると思います： surveyパッケージでOLSを実行できないのはなぜですか。これは、Stataで重み付けされたデータを使用して実行できるように思われますか？一般化線形モデルの逸脱とr二乗値の解釈の違いは何ですか？

13 r generalized-linear-model least-squares r-squared deviance

2

ランダム行列の場合、SVDは何も説明すべきではありませんか？私は何を間違えていますか？

完全にランダムデータで構成される2次元行列を作成する場合、PCAおよびSVDコンポーネントは本質的に何も説明しないと予想されます。代わりに、最初のSVD列がデータの75％を説明するように見えます。これはどのようにできますか？私は何を間違えていますか？プロットは次のとおりです。 Rコードは次のとおりです。 set.seed(1) rm(list=ls()) m <- matrix(runif(10000,min=0,max=25), nrow=100,ncol=100) svd1 <- svd(m, LINPACK=T) par(mfrow=c(1,4)) image(t(m)[,nrow(m):1]) plot(svd1$d,cex.lab=2, xlab="SVD Column",ylab="Singluar Value",pch=19) percentVarianceExplained = svd1$d^2/sum(svd1$d^2) * 100 plot(percentVarianceExplained,ylim=c(0,100),cex.lab=2, xlab="SVD Column",ylab="Percent of variance explained",pch=19) cumulativeVarianceExplained = cumsum(svd1$d^2/sum(svd1$d^2)) * 100 plot(cumulativeVarianceExplained,ylim=c(0,100),cex.lab=2, xlab="SVD column",ylab="Cumulative percent of variance explained",pch=19) 更新ありがとう@アーロン。修正は、既に述べたように、数値が0を中心とするように行列にスケーリングを追加することでした（つまり、平均は0です）。 m <- scale(m, scale=FALSE) 修正された画像は、ランダムデータを含む行列の場合、最初のSVD列が予想どおり0に近いことを示しています。

13 r pca svd

1

ロジスティック回帰からの予測を理解する

ロジスティック回帰モデル（Rのglm）からの予測は、予想どおり0と1の間に制限されていません。ロジスティック回帰の私の理解は、入力パラメーターとモデルパラメーターが線形に組み合わされ、ロジットリンク関数を使用して応答が確率に変換されることです。ロジット関数は0と1の間に制限されているため、予測は0と1の間に制限されると予想しました。ただし、Rでロジスティック回帰を実装すると、これは見られません。 data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) どちらかといえば、predict（model）の出力は私には正常に見えます。誰かが私が得る値が確率ではない理由を私に説明できますか？

13 r regression logistic generalized-linear-model

2

連続時間縦断バイナリ応答用のRパッケージはありますか？

このbildパッケージは、シリアルバイナリレスポンスに最適なパッケージのようです。しかし、それは離散時間のためです。現在の応答Yと、以前に測定されたバイナリ応答、または少なくとも1次のマルコフバージョンのオッズ比接続の時間の滑らかな関数を指定したいと思います。これは交互ロジスティック回帰と呼ばれます。連続時間を処理するRパッケージを知っている人はいますか？つまり、測定時間はフォローアップ時間になりますか？モデルにランダム効果は必要ありません。

13 r repeated-measures binary-data panel-data

タグ付けされた質問 「r」

タグ付けされた質問「r」