タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
Rのlmで使用されている基本的なアルゴリズムは何ですか?
Rで作成された線形モデルについて質問されましたlm。 「回帰は線形または非線形の反復最小二乗法を使用しましたか?」 私は少し検索して、2つの違いを理解しましたが、Rが線形最小二乗法を使用していることの証拠は見つかりませんでしたlm(これは私が使用していると思います)。 私はthrouhg lmとその基礎となる関数のlm.fitドキュメントをとかしましたが、関連するものは何も見つかりませんでした。 私が尋ねられた質問は馬鹿げた質問だと思います、そしてそれはおそらく間違って定式化されていますが、私がそれにどのように答えることができるかについての助けをいただければ幸いです。
9 r  linear-model  lm 


2
ACFおよびPACFプロットの解釈
私の生データは、下降傾向のある60日間の時系列で構成されています。データは毎週なので、頻度は7に設定されます。 このようなデータの差を計算しました 差に対してACFプロットとPACFプロットを実行すると、矛盾した結果が表示されるようです。ACFは最初の遅延期間のプラスの影響を示していますが、PACFはマイナスの影響を示していますか?誰かがこれを解釈するのを手伝ってくれませんか?ARIMAをよりよく理解しようとしています。私がPACFとACFについて見た例は、常に2つが少なくとも方向性が一致していることを示しているようです。

2
GAMのノットの選択
GAMに適切な数のノットを選択する場合、データの数とx軸の増分を考慮に入れることができます。 x軸に100の増分があり、各増分に1000のデータポイントがある場合はどうなるでしょうか。 ここの情報は言う: それらが指定されていない場合、スプラインのノットは、用語が参照する共変量値全体に均等に配置されます。たとえば、101データをxの11ノットスプラインでフィッティングすると、10番目ごとにノットが存在します(順序付け) x値。 この例では、基本的な開始は9ノットである必要がありますか?非常に小さな数から非常に大きな数までフィッティングできるため、このデータセットにどのノットの範囲が適しているかはわかりません。 set.seed(1) dat <- data.frame(y = rnorm(10000), x = 100) library(ggplot) ggplot(dat, aes(x = x, y = y)) + geom_point(size= 0.5) + stat_smooth(method = "gam", formula = y ~ s(x, bs = "cs"),k=9, col = "black") k = 25が有用な適合を提供した場合、このデータに妥当でしょうか?
9 r  gam  splines 

1
Rを使用したグレンジャー因果関係の解釈
私は3つのマクロ経済変数(ICS-消費者感情、ER-雇用率、DGO-耐久財注文)を持ち、Rでグレンジャー因果関係テストを実行しました。Grangerテストの結果を解釈する方法がわかりません。誰かが結果を理解する手助けをしてくれませんか? ある変数を使用して別の変数を予測できるかどうかを確認していることを知っています。それがtrueの場合、変数の1つに多少の遅れがあり、Grangerテストの順序は順序と関係があることを理解しています。2つのモデルがここで報告されているという事実を解釈する方法がわかりません。1つのモデルにはリグレッサ変数があり、もう1つのモデルにはリグレッサがないことがわかります。ラグベクトル1:3は、1、2、および3か月のラグをテストしていることを意味すると思います。 grangertest(ICS~ER, order = 3, data=modeling.mts) Granger causality test Model 1: ICS ~ Lags(ICS, 1:3) + Lags(ER, 1:3) Model 2: ICS ~ Lags(ICS, 1:3) Res.Df Df F Pr(>F) 1 258 2 261 -3 2.0352 0.1094 grangertest(ICS~DGO, order = 3, data=modeling.mts) Granger causality test Model 1: ICS ~ Lags(ICS, 1:3) …

1
反復測定anovaモデルと混合モデルの同等性:lmerとlme、および複合対称性
aov内部反復測定モデルとlmer混合モデルの間で同等の結果を取得するのに問題があります。 私のデータとスクリプトは次のようになります data=read.csv("https://www.dropbox.com/s/zgle45tpyv5t781/fitness.csv?dl=1") data$id=factor(data$id) data id FITNESS TEST PULSE 1 1 pilates CYCLING 91 2 2 pilates CYCLING 82 3 3 pilates CYCLING 65 4 4 pilates CYCLING 90 5 5 pilates CYCLING 79 6 6 pilates CYCLING 84 7 7 aerobics CYCLING 84 8 8 aerobics CYCLING 77 9 …

1
ポアソンモデルを使用した発生率の計算:Cox PHモデルからのハザード比との関係
リスクの相対的な測定と絶対的な測定の両方を示すために、ハザード比に沿って示す発生率を計算したいと思います。他の研究で、そのような発生率は、モデルのフォローアップ時間をオフセットとしてポアソンモデルを使用して計算できることがわかりました。だから私は次のようにRでそれを試しました: library(survival) # Get example data data(colon) colon$status <- ifelse(colon$etype==1,0,1) # set to 0/1 (needed for poisson later on) # Fit cox model for rx (age + sex adjusted) coxph(Surv(time,status)~rx+sex+age, data=colon) # HR (rxLev): 0.92 # HR (rxLev+5FU): 0.74 # Get incidence rates using poisson models with same terms and …

1
効果コーディングを使用した一般化線形モデルのパラメーターにはどのような解釈がありますか?
library(lme4) out <- glmer(cbind(incidence, size - incidence) ~ period + (1 | herd), data = cbpp, family = binomial, contrasts = list(period = "contr.sum")) summary(out) Fixed effects: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.32337 0.22129 -10.499 < 2e-16 *** period1 0.92498 0.18330 5.046 4.51e-07 *** period2 -0.06698 0.22845 -0.293 …

2
RPART(または一般的に決定木)でCP(コスト複雑度)値を計算する方法
私が理解していることから、rpart関数へのcp引数は、minsplitまたはminbucket引数と同じ方法でツリーを事前整理するのに役立ちます。CP値の計算方法がわかりません。例えば df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE, FALSE, TRUE, FALSE, FALSE)), method="class") mytree<-rpart(y ~ x, data = df, minbucket = 1, minsplit=1) 結果のツリー... mytree n= 6 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 6 3 FALSE (0.5000000 0.5000000) 2) x>=2.5 4 1 FALSE (0.7500000 0.2500000) * 3) x< …
9 r  cart  rpart 

2
線形判別分析射影プロットを再現
線形判別分析(LDA)で投影点と格闘しています。多変量統計手法に関する多くの本は、LDAの考え方を下の図で示しています。 問題の説明は次のとおりです。まず、決定境界を描き、垂直線を追加し、データポイントの投影をプロットする必要があります。垂線に投影点を追加する方法を知りたい。 提案/ポインタはありますか?


5
線形回帰がうまく適合しない
R lm関数を使用して線形回帰を行います。 x = log(errors) plot(x,y) lm.result = lm(formula = y ~ x) abline(lm.result, col="blue") # showing the "fit" in blue しかし、それはうまく適合しません。残念ながら、私はマニュアルを理解できません。 誰かが私を正しい方向に向けてこれをよりよく合わせることができますか? フィッティングとは、二乗平均平方根誤差(RMSE)を最小限に抑えたいという意味です。 編集:関連する質問(同じ問題です)をここに投稿しました: この機能に基づいてRMSEをさらに下げることはできますか? そしてここに生データ: http://tny.cz/c320180d ただし、このリンクでは、 xは現在のページのエラーと呼ばれ、サンプルが少ない(現在のページのプロットでは1000と3000)。他の質問ではもっと簡単にしたかったのです。
9 r  regression 

1
部分依存プロットと勾配ブースティング(GBMパッケージ)
部分依存プロットをプロットしてクラス確率を表示し、GBMモデルの予測子の効果を推定することは可能ですか?パッケージpartialPlotからのようなものrandomForest。 この記事によると、部分的なプロットはgbmで実行できます。 よろしくお願いします。
9 r  gbm 

5
循環/定期的な時系列を平滑化する
自動車事故の時間別データがあります。予想通り、それらは一日の真ん中に高く、ラッシュアワーにピークを迎えます。ggplot2のデフォルトのgeom_densityはそれを滑らかにします 飲酒運転に関連するクラッシュのデータのサブセットは、1日の終わり(夕方と早朝)に高く、極端に高くなります。しかし、ggplot2のデフォルトのgeom_densityは、依然として右端にあります。 これについて何をしますか?目的は単に視覚化であり、堅牢な統計分析の必要はありません(ありますか?)。 x <- structure(list(hour = c(14, 1, 1, 9, 2, 11, 20, 5, 22, 13, 21, 2, 22, 10, 18, 0, 2, 1, 2, 15, 20, 23, 17, 3, 3, 16, 19, 23, 3, 4, 4, 22, 2, 21, 20, 1, 19, 18, 17, 23, 23, 3, 11, …

1
Rの数式インターフェイスを使用しているときにMan-Whitney Uを解釈するにはどうすればよいですか
次のデータがあるとします。 set.seed(123) data <- data.frame(x = c(rnorm(50, 1, 1), rnorm(50, 5, 2)), y = c(rep('A', 50), rep('B', 50))) 次の箱ひげ図(boxplot(data$x ~ data$y))が得られます。 ここで、2つのサンプルが同じ位置パラメーター(中央値または平均値、あるいはその両方)を持っているかどうかをテストしたいとします。私の実際のケースでは、データが明らかに正常ではないため、次のようにWilcoxon-Mann-Whitney検定を実行することにしました。 wilcox.test(data$x ~ data$y) しかし、私は対立仮説として、B data$yの「第2」の因子は、より高い位置パラメーターを持つ分布に由来するということを望みます。alternativeパラメータを「大きい」と「小さい」に設定しようとしましたが、どうやら対立仮説は私が探しているものではありません。たとえば、alternative = "greater"「代替仮説:真の位置シフトは0よりも大きい; alternative = "less"「代替仮説:真の位置シフトは0未満です。」 必要な対立wilcox.test()仮説(BはAよりも高い位置パラメーターを持つ分布から得られる)を得るために、関数をどのように調整できますか?または、代わりに別のテストを使用する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.