タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
ポアソン回帰モデルを検証するためのコスト関数
収集したカウントデータについては、ポアソン回帰を使用してモデルを構築しています。これはglm、私が使用するR の関数を使用して行いますfamily = "poisson"。可能なモデルを評価するために(私はいくつかの予測子を持っています)、AICを使用します。ここまでは順調ですね。次に、相互検証を実行します。私はすでにパッケージのcv.glm関数を使用してこれに成功していbootます。ドキュメントのcv.glmIあなたが意味のある予測誤差を取得するには、特定のコスト関数を使用する必要が二項データのためにその例を参照してください。ただし、どのコスト関数がに適しているのかはまだわかりませんfamily = poisson。Googleを広範囲に検索しても、特定の結果は得られませんでした。私の質問はcv.glm、ポアソンglmの場合にどのコスト関数が適切であるかを当てる光が誰にもあるということです。

2
R randomForestでの置換によるサンプリング
randomForest実装では、置換でサンプリングする場合でも、観測数を超えるサンプリングは許可されません。どうしてこれなの? 正常に動作します: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 私がしたいこと: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency 層別サンプルなしの同様のエラー: rf <- randomForest(Species ~ …

2
Rのゼロインフレカウントモデル:本当の利点は何ですか?
ゼロインフレ鳥数を分析するために、Rパッケージpsclを使用してゼロインフレ数モデルを適用したいと思います。ただし、ドキュメントで提供されている主要な関数の1つ(?zeroinfl)の例を見て、これらのモデルの本当の利点は何なのか疑問に思い始めます。そこに示されているサンプルコードに従って、標準のポアソン、準ポアソン、負の二項モデル、単純なゼロ膨張のポアソンモデル、負の二項モデル、ゼロ成分の回帰子を含むゼロ膨張のポアソンモデル、負の二項モデルを計算しました。次に、観測データと適合データのヒストグラムを調べました。(これを複製するためのコードは次のとおりです。) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson) fm_nb <- glm.nb(art ~ ., data = bioChemists) ## with simple inflation (no regressors for zero component) …

1
連続予測とカテゴリー予測の間の相互作用のための混合モデルの複数比較
lme4混合効果の回帰を当てはめmultcomp、ペアごとの比較を計算するために使用したいと思います。複数の連続したカテゴリカル予測子を含む複雑なデータセットがありますが、組み込みのChickWeightデータセットを例として使用して、私の質問を示すことができます。 m <- lmer(weight ~ Time * Diet + (1 | Chick), data=ChickWeight, REML=F) Time継続的でDietカテゴリー的(4レベル)であり、食事ごとに複数のひよこがあります。すべてのひよこはほぼ同じ体重で開始しましたが、餌は成長率に影響を与える可能性があるため、Diet切片は(多かれ少なかれ)同じでなければなりませんが、勾配は異なる場合があります。私はDietこのような切片効果のペアワイズ比較を得ることができます: summary(glht(m, linfct=mcp(Diet = "Tukey"))) そして、確かに、それらは大幅に異なっていませんが、Time:Diet効果の類似のテストをどのように行うことができますか?相互作用項を単にに入れるとmcpエラーが発生します。 summary(glht(m, linfct=mcp('Time:Diet' = "Tukey"))) Error in summary(glht(m, linfct = mcp(`Time:Diet` = "Tukey"))) : error in evaluating the argument 'object' in selecting a method for function 'summary': Error in mcp2matrix(model, linfct …

1
ggplotまたはellipseパッケージで95%CI楕円をプロットすると異なる結果が得られる
protoclust{protoclust}データの分類に使用される変数のペアごとにスキャッタープロットを作成し、クラスごとに色を付け、各クラスの95%信頼区間の楕円を重ねることで(で作成された)クラスタリングの結果を視覚化したいelipses-classesは、変数の各ペアの下で重複しています。 楕円の描画を2つの異なる方法で実装しましたが、結果の楕円が異なります!(最初の実装では楕円が大きくなります!)軸の中心と角度はどちらも似ているように見えるので、アプリオリはサイズが異なるだけです(多少のスケーリング?)。私はそれらの1つ(両方ではないことを願っています!)、または引数を使用して何か間違ったことをしているに違いないと思います。 誰かが私が間違っていることを教えてもらえますか? ここに2つの実装のコードがあります。どちらも、データ楕円をどのようにしてggplot2散布図に重ね合わせることができるかという答えに基づいています。 ### 1st implementation ### using ellipse{ellipse} library(ellipse) library(ggplot2) library(RColorBrewer) colorpal <- brewer.pal(10, "Paired") x <- data$x y <- data$y group <- data$group df <- data.frame(x=x, y=y, group=factor(group)) df_ell <- data.frame() for(g in levels(df$group)){df_ell <- rbind(df_ell, cbind(as.data.frame(with(df[df$group==g,], ellipse(cor(x, y),scale=c(sd(x),sd(y)),centre=c(mean(x),mean(y))))),group=g))} p1 <- ggplot(data=df, aes(x=x, y=y,colour=group)) + geom_point() + …

2
各日付の複数の観測を含む時系列を構築する
私は、四半期ごとに3担当者がいる10年間の四半期ごとにサンプリングされたデータ(動物バイオマス)に時系列を適用しようとしています。つまり、40日付ですが、合計120観測です。 私は、ShumwayのSARIMA'aとStofferの時系列分析まで読んだことがあります。al。の適用時系列分析。私の理解では、各モデルは時系列の各ポイントでの単一の観測に基づいています。 質問:モデルの各観測値の変動をどのように含めることができますか?平均値でシリーズを構築することはできますが、観測ごとの変動を緩めるので、何が起こっているのかを理解する上でそれは重要です。
11 r  time-series 

3
コンピュータシミュレーションを使用して、大学院レベルでの統計的概念をよりよく理解する
こんにちは私は統計学の大学院コースを受講しており、テスト統計学およびその他の概念をカバーしてきました。 しかし、私はしばしば公式を適用して、物事がどのように機能するかについて一種の直感を開発することができますが、シミュレーションの実験で私の研究をバックアップした場合、私は目の前の問題により優れた直感を開発するだろうと感じることがよくあります。 したがって、私はクラスで議論するいくつかの概念をよりよく理解するために、簡単なシミュレーションを書くことを考えてきました。今私は言うJavaを使用することができます: 正規平均と標準偏差でランダムな母集団を作成します。 次に、小さなサンプルを取り、Type-IおよびType-IIエラーを経験的に計算してみます。 今私が持っている質問は: これは直感を養うための正当なアプローチですか? これを行うソフトウェアはありますSASか(?、R?) これは、このようなプログラミングを扱う統計学の分野ですか?シミュレーション?

1
Rの比例オッズの仮定なしに、通常のロジスティック回帰の係数を修正する方法は?
比例オッズの仮定なしに、Rで順序ロジスティック回帰を実行したいと考えています。これはvglm()、Rを設定することで、関数in を使用して直接実行できることを知っていますparallel=FALSE。 しかし、私の問題は、この回帰設定で特定の係数セットを修正する方法ですか?例えば、従属変数言う離散的順序であり、値が取ることができるY = 1、2、または3。回帰子がX 1およびX 2の場合、回帰方程式は次のとおりです。YYYY= 1Y=1Y = 1222333バツ1X1X_{1}バツ2X2X_{2} l o g i t ( P(Y≤ 1 ))l o g i t ( P(Y≤ 2 ))= α1+ β11バツ1+ β12バツ2= α2+ β21バツ1+ β22バツ2logit(P(Y≤1))=α1+β11X1+β12X2logit(P(Y≤2))=α2+β21X1+β22X2 \begin{aligned} {\rm logit} \big( P(Y \leq 1) \big) &= \alpha_{1} + \beta_{11}X_{1} + \beta_{12}X_{2} \\ {\rm logit}\big(P(Y …
11 r  regression  logistic 

2
GLM出力の分散パラメーター
私はRでglmを実行しました、そしてsummary()出力の下部近くに、それは述べています (Dispersion parameter for gaussian family taken to be 28.35031) 私はいくつかのグーグル調査を行っており、標準誤差を合わせるために分散パラメーターが使用されていることを学びました。誰かが分散パラメーターとは何か、そしてそれをどのように解釈すべきかについて詳細を誰かが提供できることを望んでいますか?

1
RでのポアソンGLMの適合-レートとカウントの問題
現在、いくつかのカウントデータのGLM(および最終的にはGAM)を含むプロジェクトに取り組んでいます。通常、私はSASでこれを行いますが、Rに移動しようとしていて、問題があります。 以下を使用してデータをカウントするようにGLMを適合させた場合: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) 私は得ます: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 < 2e-16 *** exposure 0.94528 0.30808 3.068 0.00215 ** covariate -0.01317 …

2
Cox PHモデルから予測ハザード率を計算する方法は?
次のCox PHモデルがあります。 (時間、イベント)〜X + Y + Z 私は予測ハザード取得したいと思い金利(私はハザード率について話していないで、特定の値が与えられ、ハザード比)をX、Y、Z。muhaz Rパッケージが観測されたハザード率を計算できることは知っていますが、予測モデルに興味があります。 Rでこれを行う方法はありますか?
11 r  survival  hazard  cox-model 

5
二変量正規分布データから楕円領域を取得する方法は?
私は次のようなデータを持っています: 私は正規分布を適用しようとしました(カーネル密度の推定はうまく機能しますが、それほど高い精度は必要ありません)。これは非常にうまく機能します。密度プロットは楕円を作成します。 その楕円関数を取得して、点が楕円の領域内にあるかどうかを判断する必要があります。どうやってするか? RまたはMathematicaコードを歓迎します。
11 r  regression  pdf  bivariate 


1
arulesを使用して新しいデータに適したルールを見つける
アソシエーションルールのトランザクションのマイニングにR(およびarulesパッケージ)を使用しています。私がやりたいことは、ルールを作成して、それを新しいデータに適用することです。 たとえば、私が多くのルールを持っているとしましょう{Beer=YES} -> {Diapers=YES}。そのうちの1つは正規のものです。 次に、レコードの1つがビールを購入したがおむつは購入していない新しいトランザクションデータがあります。LHSは満たされているがRHSは満たされていないルールを特定するにはどうすればよいですか? Rの例: install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) 生成されるルールは次のとおりです。 > inspect(rules) lhs rhs support confidence lift 1 {} => {whole milk} 0.25554200 0.2555420 1.000000 2 {yogurt} => {whole milk} 0.05603010 0.4018964 1.572722 …

1
2クラスモデルのマルチクラス問題への拡張
Adaboostに関するこのペーパーでは、2クラスモデルをKクラスの問題に拡張するための提案とコード(17ページ)を示します。このコードを一般化して、さまざまな2クラスモデルを簡単にプラグインして結果を比較できるようにします。ほとんどの分類モデルには数式インターフェースとpredictメソッドがあるため、これの一部は比較的簡単なはずです。残念ながら、2クラスモデルからクラス確率を抽出する標準的な方法が見つからないため、各モデルにはカスタムコードが必要になります。 Kクラス問題を2クラス問題に分解し、Kモデルを返すために私が書いた関数は次のとおりです。 oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) names(models) <- unique(Y) info <- list(X=X, Y=Y, classes=unique(Y)) out <- list(models=models, info=info) class(out) <- 'oneVsAll' return(out) } これは、各モデルを反復処理して予測を行うために私が書いた予測方法です。 predict.oneVsAll <- …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.