タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
Rで遷移行列(マルコフ)を計算する
R(組み込み関数)に一連の観測からマルコフ連鎖の遷移行列を計算する方法はありますか? たとえば、次のようなデータセットを取得して、一次遷移行列を計算しますか? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

2
正則化またはペナルティ化によるARIMAXモデルの適合(たとえば、なげなわ、エラスティックネット、またはリッジ回帰)
予測パッケージのauto.arima()関数を使用して、ARMAXモデルをさまざまな共変量に適合させます。ただし、選択する変数は多数あることが多く、通常はそれらのサブセットで機能する最終モデルになります。私は人間であり、バイアスの影響を受けるため、変数選択のアドホックな手法は好きではありませんが、時系列の相互検証は難しいので、利用可能な変数のさまざまなサブセットを自動的に試す良い方法が見つかりませんでした。自分の最高の判断力を使ってモデルを調整するのにこだわっています。 glmモデルを適合させると、glmnetパッケージを介して、正則化と変数選択にエラスティックネットまたは投げ縄を使用できます。ARMAXモデルでエラスティックネットを使用するための既存のツールキットがRにありますか、それとも自分でロールバックする必要がありますか?これは良いアイデアですか? 編集:ARとMAの項(例えばAR5とMA5まで)を手動で計算し、glmnetを使用してモデルに適合させるのは理にかなっていますか? 編集2:FitARパッケージは、そのすべてではなく一部を私に与えているようです。

6
シャピロウィルクテストの解釈
私は統計が初めてなので、あなたの助けが必要です。 次のような小さなサンプルがあります。 H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Rを使用してShapiro-Wilkテストを実行しました。 shapiro.test(precisionH4U$H4U) そして、私は次の結果を得ました: W = 0.9502, p-value = 0.6921 ここで、p値よりも0.05の有意水準がalpha(0.6921> 0.05)よりも大きいと仮定すると、正規分布に関する帰無仮説を拒否できませんが、サンプルに正規分布があると言えますか? ありがとう!

3
PCAを介して直交回帰(合計最小二乗)を実行する方法は?
私は常にlm()R での線形回帰を実行するために使用します。この関数は、ような係数返しますyyyxxxββ\betay=βx.y=βx.y = \beta x. 今日、私は総最小二乗について学び、そのprincomp()機能(主成分分析、PCA)を使用してそれを実行できることを学びました。それは私にとって良いはずです(より正確に)。を使用していくつかのテストを行いましたprincomp(): r <- princomp( ~ x + y) 私の問題は、結果をどのように解釈するかです。回帰係数を取得するにはどうすればよいですか?「係数」とは、値を掛けて近い数を与えるために使用しなければならない数を意味します。ββ\betaxxxyyy


3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

2
glmを実行しているときのエラー「システムは計算上特異」
glm推定を実行するために、robustbaseパッケージを使用しています。しかし、それを行うと、次のエラーが表示されます。 Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 これはどういう意味ですか?そして、どうすればデバッグできますか? PS。答えるために何か(式/仕様またはデータ)が必要な場合は、喜んで提供します。

1
Rの秒/分間隔データの「頻度」値
予測にR(3.1.1)とARIMAモデルを使用しています。私が次のような時系列データを使用している場合、ts()関数で割り当てられる「頻度」パラメータはどうあるべきかを知りたい 分単位で区切られ、180日間に分散(1440分/日) 秒で区切られ、180日間(86,400秒/日)に広がります。 定義を正しく思い出せば、Rのtsでの「頻度」は、「季節」ごとの観測数です。 質問パート1: 私の場合の「季節」とは何ですか? 季節が「日」の場合、分数の「頻度」は1440、秒数の86,400ですか。 質問パート2: 「頻度」は、達成/予測しようとしているものにも依存しますか? たとえば、私の場合、非常に短期的な予測が必要です。毎回10分先に進みます。 季節を1日ではなく1時間と見なすことは可能でしょうか? その場合、分数の頻度は60、秒の頻度は3600ですか? たとえば、分データに頻度= 60を使用しようとしましたが、頻度= 1440と比較してより良い結果が得られました(使用されfourierているリンクはHyndmanによる下記のリンクを参照してください) http://robjhyndman.com/hyndsight/forecasting-weekly-data/ (予測は、予測精度の測定にMAPEを使用して行われました) 結果が完全に任意であり、頻度を変更できない場合。私のデータでfreq = 60を使用することの実際の解釈は何でしょうか? また、私のデータには1時間ごとおよび2時間ごとの季節性が含まれていることに言及する価値があると思います(生データと自己相関関数を観察することにより)

1
異なる距離と方法で得られた階層的クラスタリング樹状図の比較
[最初のタイトル「階層的クラスタリングツリーの類似性の測定」は、トピックをよりよく反映するために@ttnphnsによって後に変更されました] 私は患者記録のデータフレームでいくつかの階層的クラスター分析を実行しています(例:http ://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=yに類似) 私は、さまざまな距離測定、さまざまなパラメーターの重み、さまざまな階層的手法を試し、最終的なクラスター/構造/ビューのツリー(樹形図)への影響を理解しています。異なる階層ツリー間の差を計算する標準的な計算/尺度があるかどうか、およびRでこれを実装する方法(たとえば、一部のツリーがほぼ同一で、一部が大幅に異なることを定量化する)


2
glmnet ridge回帰が手動計算とは異なる答えを与えるのはなぜですか?
glmnetを使用して、リッジ回帰推定値を計算しています。glmnetが本当に思っていることを実際に行っているという点で、私は疑わしい結果になりました。これを確認するために、簡単なRスクリプトを作成し、solveとglmnetで行われたリッジ回帰の結果を比較しました。違いは重要です。 n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 違いの標準は通常20前後であり、これは数値的に異なるアルゴリズムが原因ではないため、何か間違ったことをしているに違いありません。glmnetridgeと同じ結果を得るために設定する必要がある設定は何ですか?

7
Rパッケージを作成する理由と時期
私はこの質問が非常に広範なものであることを理解していますが、Rの新しいパッケージを作成する(またはしない)ことを決定する際の決定的なポイントは何だろうと思います。具体的には、この質問は、さまざまなスクリプトをコンパイルし、それらを新しいパッケージに統合する決定について、R自体を使用します。 これらの決定につながる可能性のあるポイントの中で、私は(非常に網羅的ではない)次のことを考えました: 同じサブフィールドに他のパッケージが存在しない。 他の研究者と交換し、実験の再現性を可能にする必要性; そして、反対の決定につながる可能性のあるポイントの中で: 既に使用されているメソッドの一部は、他のいくつかのパッケージに既に存在します。 新しい独立したパッケージを作成するのに十分ではない新しい関数の数。 どちらのリストにも載る可能性のある多くのポイントを忘れていたかもしれません。また、これらの基準は部分的に主観的なようです。それで、文書化されて広く利用可能な新しいパッケージにさまざまな機能とデータを統合することを開始する正当な理由は何ですか?
28 r  software 

5
線形回帰の等分散性の仮定に違反する危険性は何ですか?
例として、ChickWeightRのデータセットを考えてみましょう。分散は明らかに時間とともに増大するため、次のような単純な線形回帰を使用すると、 m <- lm(weight ~ Time*Diet, data=ChickWeight) 私の質問: モデルのどの側面に疑問があるか? 問題はTime範囲外の外挿に限定されていますか? この仮定の違反に対する線形回帰の許容度(つまり、問題を引き起こすためにはどの程度異分散が必要か)。

1
混合効果モデルで変量効果の分散と相関を解釈する方法は?
皆さんがこの質問を気にしないことを願っていますが、Rでやろうとしている線形混合効果モデル出力の出力を解釈するのに助けが必要です。私は、時間予測子として週に適合したモデルを持ち、私の結果として雇用コースで得点します。スコアを数週間(時間)といくつかの固定効果、性別、人種でモデル化しました。私のモデルにはランダム効果が含まれています。分散と相関関係の意味を理解する助けが必要です。出力は次のとおりです。 Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 相関は.231です。 相関関係は、週とスコアの間に正の関係があるため、解釈できますが、「23%の...」の観点からそれを言いたいと思います。 本当に感謝しています。 返信してくれた「ゲスト」とマクロに感謝します。申し訳ありませんが、返信しないため、私は会議に出ていたので、追いついています。出力とコンテキストは次のとおりです。 以下は、私が実行したLMERモデルの概要です。 >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ Weeks + (1 + Weeks | EmpID) Data: emp.LMER4 AIC BIC logLik deviance REMLdev 1815 1834 -732.6 1693 1685 Random effects: …

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.