統計とビッグデータ r

1

ANOVAを実行したい単純な2x2階乗実験があるとします。このように、例えば： d <- data.frame(a=factor(sample(c('a1','a2'), 100, rep=T)), b=factor(sample(c('b1','b2'), 100, rep=T))); d$y <- as.numeric(d$a)*rnorm(100, mean=.75, sd=1) + as.numeric(d$b)*rnorm(100, mean=1.2, sd=1) + as.numeric(d$a)*as.numeric(d$b)*rnorm(100, mean=.5, sd=1) + rnorm(100); 有意な相互作用が存在しない場合、デフォルトでは（IEでcontr.treatmentの）出力Anova()の全体的な意義れるaのすべてのレベルを超えるbとのbのすべてのレベルを超えるa、その権利がありますか？どのように私は私が効果の重要性をテストできるようになるコントラスト指定する必要がありますaとb効果の、レベルB1で一定に保持されるaとbのレベルのB2で一定に保持している、との相互作用のをa:b？

15 r anova contrasts

2

Rの固有値と固有ベクトルから楕円をプロットする方法は？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。誰かが次の行列の固有値と固有ベクトルから楕円をプロットするRコードを思い付くことができます A =（2.20.40.42.8）A=（2.20.40.42.8） \mathbf{A} = \left( \begin{array} {cc} 2.2 & 0.4\\ 0.4 & 2.8 \end{array} \right)

15 r multivariate-analysis matrix matrix-decomposition

2

Rのnls（）を使用したポイント分析の変更

「変更点」分析、またはnls()R を使用したマルチフェーズ回帰を実装しようとしています。ここに私が作ったいくつかの偽のデータがあります。データを近似するために使用する式は次のとおりです。 y= β0+ β1x + β2max （0 、x - δ）y=β0+β1バツ+β2最大（0、バツ−δ）y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) これは、特定の切片と勾配（および）で特定のポイントまでデータを近似し、特定のx値（）の後に、勾配をです。それが最大のことです。ポイントの前は、0に等しくなり、はゼロにされます。β0β0\beta_0β1β1\beta_1δδ\deltaβ2β2\beta_2δδ\deltaβ2β2\beta_2 したがって、これを行うための私の機能は次のとおりです。 changePoint <- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } そして、私はこの方法でモデルを適合させようとします nls(y ~ changePoint(x, b0, slope1, slope2, delta), data = data, start = c(b0 …

15 r regression change-point nls

3

1週間分のデータを時間単位で集計するにはどうすればよいですか？

複数のデータ列、1日ごとに1時間ごとの平均を取得し、同じグラフに12個の「ホスト」の結果を表示するにはどうすればよいですか？つまり、1週間分のデータについて、24時間の期間をグラフ化したいと思います。最終的な目標は、サンプリングの前後にこのデータの2つのセットを比較することです。 dates Host CPUIOWait CPUUser CPUSys 1 2011-02-11 23:55:12 db 0 14 8 2 2011-02-11 23:55:10 app1 0 6 1 3 2011-02-11 23:55:09 app2 0 4 1 私はxyplot（CPUUser〜dates | Host）を効果的に実行できました。ただし、週の各日付を表示するのではなく、X軸を1日の時間にしたいと思います。このデータをxtsオブジェクトに取得しようとすると、「order.byには適切な時間ベースのオブジェクトが必要」などのエラーが発生しますデータフレームのstr（）は次のとおりです。 'data.frame': 19720 obs. of 5 variables: $ dates : POSIXct, format: "2011-02-11 23:55:12" "2011-02-11 23:55:10" ... $ Host …

15 r time-series aggregation

3

時系列の適切な紹介（Rを使用）

私は現在、痛みの経験に関連する心理社会的特性の実験のためのデータを収集しています。その一環として、私は参加者からGSRおよびBPの測定値を、さまざまな自己報告および暗黙の測定とともに電子的に収集しています。私は心理学的なバックグラウンドを持ち、因子分析、線形モデル、実験分析に慣れています。私の質問は、時系列分析について学ぶために利用できる優れた（できれば無料の）リソースです。私はこの分野に関してはまったくの初心者ですので、どんな助けでも大歓迎です。練習用のパイロットデータがいくつかありますが、データの収集を完了する前に、分析計画を詳細に解決してもらいたいと思います。提供された参考文献もR関連である場合、それは素晴らしいでしょう。編集済み：文法を変更し、「自己報告と暗黙の測定」を追加する

15 r time-series references

3

「マルチコア」を使用するためにRスクリプトを最適化する方法

4 CPUのUbuntu-Lucid PCでGNU Rを使用しています。4つのCPUをすべて使用するために、「r-cran-multicore」パッケージをインストールしました。パッケージのマニュアルには理解できる実用的な例がないため、4つのCPUをすべて使用するためにスクリプトを最適化する方法についてアドバイスが必要です。私のデータセットは、50,000行と1600列のdata.frame（P1と呼ばれます）です。行ごとに、最大値、合計値、平均値を計算します。私のスクリプトは次のようになります。 p1max <- 0 p1mean <- 0 p1sum <-0 plength <- length(P1[,1]) for(i in 1:plength){ p1max <- c(p1max, max(P1[i,])) p1mean <- c(p1mean, mean(P1[i,])) p1sum <- c(p1sum, sum(P1[i,])) } 4つのCPUをすべて使用するために、スクリプトを変更して実行する方法を教えてください。

15 r

3

Rでのオブジェクト指向プログラミングのチュートリアル[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 4年前に閉鎖されました。ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Rのオブジェクト指向プログラミングに関する優れたチュートリアルはありますか？次のものが含まれていれば素晴らしいと思います。クラスの定義方法。 S3クラスとS4クラスの違い。演算子のオーバーロードは、（私が書くことができるようにしたいのですがa+bどこaとb私は考えているクラスのインスタンスです）。

15 r

4

回帰パラメータの信頼区間：ベイジアン対クラシック

長さnの2つの配列xとyが与えられた場合、モデルy = a + b * xに適合し、勾配の95％信頼区間を計算します。これは（b-デルタ、b +デルタ）で、bは通常の方法で検出され、 delta = qt(0.975,df=n-2)*se.slope se.slopeは、勾配の標準誤差です。Rから勾配の標準誤差を取得する1つの方法はsummary(lm(y~x))$coef[2,2]です。ここで、xとyが与えられた勾配の尤度を記述し、これに「フラット」を掛け、MCMC手法を使用して事後分布からサンプルmを描画するとします。定義する lims = quantile(m,c(0.025,0.975)) 私の質問：(lims[[2]]-lims[[1]])/2上記で定義されたデルタとほぼ等しいですか？以下の補遺は、これら2つが異なるように見える単純なJAGSモデルです。 model { for (i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- a + b * x[i] } a ~ dnorm(0, .00001) b ~ dnorm(0, .00001) tau <- pow(sigma, -2) sigma …

15 r regression bayesian confidence-interval frequentist

2

乱数とマルチコアパッケージ

Rでプログラミングするとき、マルチコアパッケージを数回使用しました。しかし、私はそれが乱数をどのように処理するかについてのステートメントを見たことはありません。CでopenMPを使用するときは、適切な並列RNGを使用するように注意しますが、Rでは、理にかなったことが起こると想定しています。誰でも賢明なことが起こることを確認できますか？例ドキュメントから、私たちは持っています x <- foreach(icount(1000), .combine = "+") %do% rnorm(4) rnorm`s はどのように生成されますか？

15 r random-generation parallel-computing multicore

4

同じ数の自由度を持つ混合効果モデルの比較

ここで抽象化しようとする実験があります。私があなたの前に3つの白い石を投げて、それらの位置について判断を下すようにあなたに頼むことを想像してください。石の様々な特性とあなたの反応を記録します。私はこれをいくつかの主題にわたって行います。2つのモデルを生成します。1つは、最も近い石が反応を予測することであり、もう1つは、石の幾何学的中心が反応を予測することです。したがって、RIでlmerを使用すると記述できます。 mNear <- lmer(resp ~ nearest + (1|subject), REML = FALSE) mCenter <- lmer(resp ~ center + (1|subject), REML = FALSE) 更新と変更-いくつかの役立つコメントを組み込んだより直接的なバージョン試してみた anova(mNear, mCenter) もちろん、これらはネストされておらず、私は実際にそのように比較することはできないため、これは間違っています。私はanova.merがエラーをスローすることを期待していましたが、そうではありませんでした。しかし、ここで試すことのできるネストは自然なことではなく、まだ分析的な記述が多少少なくなっています。モデルが自然にネストされている場合（たとえば、線形で2次）、テストは1つの方法にすぎません。しかし、この場合、非対称の結果があるとはどういう意味でしょうか？たとえば、モデル3を作成できます。 mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE) その後、私は分散することができます。 anova(mCenter, mBoth) anova(mNearest, mBoth) これは適切なことで、センターが最も近い効果（2番目のコマンド）に追加されますが、BICは実際にセンターに追加されると実際に上がります（低位の節約の修正）。これは疑わしいものを確認します。しかし、これで十分でしょうか？そして、中心と最も近くに非常に高い相関があるとき、これは公平ですか？説明変数（自由度）を加算および減算することではない場合、モデルを分析的に比較するより良い方法はありますか？

15 r mixed-model model-selection

5

大量のデータをグラフィカルに表示する良い方法

私は、14の変数と345,000の住宅データの観測（建設された年、面積、販売価格、居住郡など）を含むプロジェクトに取り組んでいます。良いグラフィカルなテクニックと、素敵なプロットテクニックを含むRライブラリを見つけようとしています。 ggplotとラティスで何がうまく機能するかをすでに見ています。数値変数のいくつかについてバイオリンプロットを行うことを考えています。明確で洗練された、最も重要な、簡潔な方法で、大量の数値または因子タイプの変数を表示するために、他のどのパッケージが推奨されますか？

15 r data-visualization large-data eda

2

Rの段階的回帰-仕組み

step関数を使用して、Rの段階的回帰と後方回帰の基本的な違いを理解しようとしています。段階的な回帰では、次のコマンドを使用しました step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") 上記のコードの出力は次のとおりです。後方変数の選択には、次のコマンドを使用しました step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") そして、私は後方への以下の出力を得ました私が理解した限りでは、パラメーターが指定されていない場合、Rでパラメーター「upper」および「lower」が指定されない限り、ステップワイズ選択は逆方向として機能します。しかし、ステップワイズ選択の出力には、+ dispが追加されます2番目のステップ。ステップワイズ選択で再度+ dispを追加して達成しようとしている機能は何ですか？結果が後方選択と同じ（AIC値とモデル選択値）なのに、Rが2番目のステップで+ dispを追加するのはなぜですか。段階的な選択でRは正確にどのように機能しますか？この関数がRでどのように機能するかを本当に理解したいと思います。助けてくれてありがとう！

15 r regression

3

ロジスティック回帰：Scikit Learn対glmnet

Rのパッケージをsklearn使用してロジスティック回帰ライブラリの結果を複製しようとしていglmnetます。 sklearn分w 、c12wTw + C∑i = 1Nログ（exp（ − y私（ XT私w + c ））+ 1 ）分w、c12wTw+C∑私=1Nログ⁡（exp⁡（−y私（バツ私Tw+c））+1）\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) のビネットからglmnet、その実装はわずかに異なるコスト関数を最小化します分β、β0− [ 1N∑i = 1Ny私（β0+ xT私β）− ログ（1 + e（β0+ xT私β））] + λ [ （α - 1 ）| |β| |22/ 2+α | |β| |1]分β、β0−[1N∑私=1Ny私（β0+バツ私Tβ）−ログ⁡（1+e（β0+バツ私Tβ））]+λ[（α−1）||β||22/2+α||β||1]\min_{\beta, \beta_0} -\left[\frac1N \sum_{i=1}^N y_i(\beta_0+x_i^T\beta)-\log(1+e^{(\beta_0+x_i^T\beta)})\right] …

15 r logistic python scikit-learn glmnet

3

ゼロで凝集する非負データのモデル（Tweedie GLM、ゼロで膨張したGLMなど）は正確なゼロを予測できますか？

Tweedie分布は、パラメーター（平均分散関係の指数）が1〜2の場合、点質量がゼロの歪んだデータをモデル化できます。ppp 同様に、ゼロで膨らんだ（そうでなければ連続的または離散的）モデルは、多数のゼロを持つ場合があります。これらの種類のモデルを使用して予測または近似値を計算すると、予測値がすべてゼロ以外になるのはなぜなのか理解できません。これらのモデルは実際に正確なゼロを予測できますか？例えば library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0)) # predict pred <- …

15 r generalized-linear-model prediction zero-inflation tweedie-distribution

2

ランダムフォレストについて報告するトレーニングエラーの尺度

現在randomForest、R のパッケージを使用して分類問題にランダムフォレストを適合させていますが、これらのモデルのトレーニングエラーを報告する方法については不明です。コマンドで取得した予測を使用して計算すると、トレーニングエラーは0％に近くなります。 predict(model, data=X_train) X_trainトレーニングデータはどこにありますか。関連する質問への回答では、ランダムフォレストのトレーニングエラーメトリックとしてout-of-bag（OOB）トレーニングエラーを使用する必要があることを読みました。この数量は、コマンドで取得した予測から計算されます。 predict(model) この場合、OOBトレーニングエラーは平均10 CVテストエラーである11％にはるかに近くなります。不思議なんだけど：ランダムフォレストのトレーニングエラーの尺度としてOOBトレーニングエラーを報告することは一般に受け入れられていますか？従来のトレーニングエラーの測定値が人為的に低いというのは本当ですか？従来のトレーニングエラーの測定値が人為的に低い場合、RFが過適合であるかどうかを確認するために2つの測定値を比較できますか？

15 r machine-learning classification random-forest overfitting

タグ付けされた質問 「r」

タグ付けされた質問「r」