タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

4
3つ以上のサンプル間の中央値の差に関する仮説検定
質問 3つのグループの人のテストスコアは、Rの個別のベクトルとして保存されます。 set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) これらのグループの中央値に大きな違いがあるかどうかを知りたいです。ウィルコクソン検定を使用して、グループ1とグループ2をテストできることを知っています。 wilcox.test(group1, group2) ただし、これは一度に2つのグループのみを比較するため、3つすべてを同時に比較したいと思います。0.05の有意水準でp値が得られる統計的検定が必要です。誰か助けてくれますか? 編集#1-ムードの中央値検定 ユーザーHibernatingの提案された答えに従って、Moodの中央値テストを試しました。 median.test <- function(x, y){ z <- c(x, y) g <- rep(1:2, c(length(x), length(y))) m …

5
用語頻度/逆文書頻度(TF / IDF):重み付け
1000個のドキュメントとその中に表示されるすべての単語を表すデータセットがあります。したがって、行はドキュメントを表し、列は単語を表します。したがって、たとえば、セルの値は、ドキュメントで単語が出現する回数を表します。ここで、tf / idfメソッドを使用して、単語の「重み」を見つける必要がありますが、実際にはこれを行う方法がわかりません。誰かが私を助けてくれますか?(i 、j )(私、j)(i,j)jjj私私i

1
ログリンクされたガンマGLM対ログリンクされたガウスGLM対ログ変換されたLM
私の結果から、GLM Gammaはほとんどの仮定を満たしているように見えますが、ログ変換されたLMよりも価値のある改善でしょうか?私が見つけたほとんどの文献は、ポアソンまたは二項GLMを扱っています。ランダム化を使用した一般化線形モデルの仮定の評価の記事は非常に有用であることがわかりましたが、意思決定に使用される実際のプロットが欠けています。うまくいけば、経験のある人が私を正しい方向に向けることができます。 応答変数Tの分布をモデル化したいのですが、その分布を下にプロットします。ご覧のとおり、正の歪度です 。 考慮すべき2つのカテゴリー要因があります:METHとCASEPART。 この研究は主に探索的であり、モデルを理論化してその周辺でDoEを実行する前のパイロット研究として本質的に機能することに注意してください。 Rには次のモデルと診断プロットがあります。 LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat) GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log')) GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log')) また、Shapiro-Wilksの残差検定を使用して、次のP値を達成しました。 LM.LOG: 2.347e-11 GLM.GAMMA: 0.6288 GLM.GAUS: 0.6288 AICとBICの値を計算しましたが、正しい場合は、GLM / LMのさまざまなファミリーのために、あまりわかりません。 また、極端な値に注意しましたが、明確な「特別な原因」がないため、それらを外れ値として分類することはできません。

4
RでROCの下の面積のp値を計算する方法
私は、受信者オペレーター特性(ROC)の下の領域のp値を計算する方法を見つけるのに苦労しています。連続変数と診断テスト結果があります。AUROCが統計的に有意であるかどうかを見たいです。 ROC曲線を扱う多くのパッケージを見つけました:pROC、ROCR、caTools、検証、Epi。しかし、ドキュメントを読んでテストするのに何時間も費やした後でも、私はその方法を見つけることができませんでした。見逃したばかりだと思う。
12 r  p-value  roc 

1
lmerとp値に関する混乱:memiscパッケージのp値はMCMCのものとどのように比較されますか?
パッケージlmer()内の関数はlme4p値を生成しなかったという印象を受けました(lmerp値とその他すべてを参照)。 代わりに、MCMCが生成したp値を使用して、この質問:混合モデルでの重要な効果lme4とこの質問:のパッケージの出力にp値が見つかりませんlmer()lm4R。 最近、私はmemiscと呼ばれるパッケージを試してgetSummary.mer()、モデルの固定効果をcsvファイルに入れました。まるで魔法のようにp、MCMCのp値と​​非常に密接に一致する列が表示されます(また、を使用した場合の処理​​時間はかかりませんpvals.fnc())。 私は暫定的にコードを見てgetSummary.mer、p値を生成する行を見つけました: p <- (1 - pnorm(abs(smry@coefs[, 3]))) * 2 これは、p値をlmer実行するのではなく、出力から直接生成できることを意味しpvals.fncますか?これが疑いなく「p-値フェティシズム」の議論を開始することを理解していますが、知りたいと思っています。memiscそれに関しては以前言及されたことを聞いたことがありませんlmer。 もっと簡潔に:生成された値よりもMCMC p値を使用する利点(ある場合)はgetSummary.mer()何ですか?

1
3次スプラインを使用したlm()フィットからの出力を回帰式に変換する方法
いくつかのコードと出力があり、モデルを構築したいと思います。この出力を使用してモデルを構築する方法がわかりません: require("splines") x <- c(0.2, 0.23, 0.26, 0.29, 0.33, 0.46, 0.53 ) y <- c(0.211, 0.2026, 0.2034, 0.2167, 0.2177, 0.19225, 0.182) fit <- lm(y ~ ns(x,3)) summary(fit) ns()自然な3次スプラインのBスプライン基底行列を生成することに注意してください。したがって、このモデルyはx、3自由度を使用するBスプラインに対して回帰します。そのようなモデルの方程式はどのようになりますか?
12 r  splines 

4
統計分析用のデータをRに単純に保存する最良の方法[非公開]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 6年前に閉鎖されました。 テキストファイルを使用して、しばらくの間、問題なくRのデータを保存しています。しかし、最近のプロジェクトでは、生のテキストファイルを処理するにはファイルのサイズが大きくなりすぎています。最も簡単な代替手段は何ですか?
12 r  dataset 

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。

2
レベルごとに1つの観測値を持つ混合モデル
ランダム効果モデルglmerをいくつかのビジネスデータに適合させています。目的は、地域のばらつきを考慮して、販売業者による販売実績を分析することです。次の変数があります。 distcode:約800レベルのディストリビューターID region:最上位の地理的ID(北、南、東、西) zone:ネストされた中レベルの地理region、全部で約30レベル territory:内zoneにネストされた低レベルの地理、約150レベル 各ディストリビューターは1つの地域でのみ営業しています。トリッキーな部分は、これが要約データであり、ディストリビューターごとに1つのデータポイントがあることです。したがって、800個のデータポイントがあり、正規化された方法ではあるが(少なくとも)800個のパラメーターを近似しようとしています。 次のようにモデルを適合させました: glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson) メモは出力されますが、これは問題なく実行されます。 変量効果のグループ化因子のレベル数は、観測値の数nに等しい これは賢明なことですか?すべての係数の有限推定値が得られ、AICも不合理ではありません。IDリンクを使用してポアソンGLMMを試すと、AICの方がはるかに悪いので、少なくともログリンクは出発点として適切です。 近似値と応答をプロットすると、ディストリビューターごとに1つのデータポイントがあるため、本質的に完全な近似が得られます。それは合理的ですか、または私は完全に愚かなことをしていますか? これは1か月間のデータを使用しています。複数の月のデータを取得し、その方法でレプリケーションを行うことができますが、月ごとの変動と可能な相互作用については新しい用語を追加する必要がありますか? ETA:上記のモデルをもう一度実行しましたが、family引数はありません(GLMMではなくガウスLMMにすぎません)。今、lmer私に次のエラーが発生しました: エラー(関数(fr、FL、start、REML、verbose)):ランダム効果のグループ化因子のレベル数は、観測値の数より小さくなければなりません ですから、家族を変えても効果はないはずなので、私は賢明なことをしていないと思います。しかし今の問題は、そもそもなぜ機能したのかということです。

1
機械学習を使用して財務時系列を予測するための最初のステップ学習
機械学習を使用して、将来の1つ以上のステップの財務時系列を予測する方法を把握しようとしています。 いくつかの記述データを含む財務時系列があり、モデルを作成し、そのモデルを使用して先のnステップを予測したいです。 私がこれまでやってきたことは: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 880.54 872.16 …

2
Rのlmer()でポアソンGLMMの過分散をテストする方法は?
私は次のモデルを持っています: > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ...そしてこれは要約出力です。 > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) …

5
回帰と分類の両方を行うRの機能選択パッケージ
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け付けていません。 私はRが初めてです。今、機械学習を学習しています。この質問が非常に基本的なものであると思われる場合は、大変申し訳ありません。Rで優れた機能選択パッケージを探しています。Borutaパッケージを使用しました。これは良いパッケージですが、分類にのみ役立つと読みました。 回帰タスクのためにRで機能選択を実装したいと思います。キャレットパッケージのドキュメントを読みましたが、私のレベルでは、理解するのは非常に困難です。 誰かが私に良いチュートリアルを教えてくれたり、機能選択のために良いパッケージやRで最も頻繁に使用されるパッケージをリストしたりできますか? 任意の助けをいただければ幸いです。前もって感謝します。


3
ランダムフォレストによるカウントデータの予測
ランダムフォレストをトレーニングして、カウントデータを適切に予測できますか?これはどのように進みますか?私は非常に広範囲の値を持っているので、分類は実際には意味をなしません。回帰を使用する場合、結果を切り捨てますか?私はここでかなり迷っています。何か案は?

1
脆弱モデルから予測生存曲線を生成する方法(R coxphを使用)?
脆弱性の項を含むCox比例ハザードモデルの予測生存関数を計算したい[生存パッケージを使用]。脆弱性項がモデル内にある場合、予測された生存関数を計算できないようです。 ## Example require(survival) data(rats) ## Create fake weight set.seed(90989) rats$weight<-runif(nrow(rats),0.2,0.9) ## Cox model with gamma frailty on litter fit <- coxph(Surv(time, status) ~ rx+weight+frailty(litter,dist="gamma"), data = rats) ## Compute survival curve from the cox model for rx=0 and weight=0.5 kg plot(survfit(fit, newdata=data.frame(rx=0,weight=0.5)),xlab = "time", ylab="Survival") ## Running this line, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.