タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
パネルデータの機械学習アルゴリズム
この質問では- 構造化/階層的/マルチレベル予測子を考慮に入れる決定木を構築する方法はありますか?-彼らは木のパネルデータメソッドに言及しています。 ベクターマシンとニューラルネットワークをサポートするための特定のパネルデータメソッドはありますか?もしそうなら、アルゴリズムとそれを実装するRパッケージ(利用可能な場合)のいくつかの論文を引用できますか?

1
大規模なデータセットの正規性のテスト-どのようにして信頼できますか?
2つのグループにグループ化された、1から1690の範囲の46840のdouble値を含むデータセットの一部を調べています。これらのグループ間の違いを分析するために、適切な検定を選択するために値の分布を調べることから始めました。 正規性のテストに関するガイドに従って、qqplot、ヒストグラム、ボックスプロットを行いました。 これは正規分布ではないようです。ガイドでは、純粋にグラフィカルな検査では不十分であるといくらか正しく述べているため、分布の正規性もテストしたいと思います。 データセットのサイズとRでのshapiro-wilksテストの制限を考慮して、与えられた分布の正規性をどのようにテストし、データセットのサイズを考慮すれば、これも信頼できますか?(この質問に対する承認された回答を参照してください) 編集: 私が言及しているShapiro-Wilkテストの制限は、テストされるデータセットが5000ポイントに制限されていることです。このトピックに関する別の良い答えを引用するには: Shapiro-Wilkのテストのもう1つの問題は、より多くのデータをフィードすると、帰無仮説が拒否される可能性が大きくなることです。したがって、大量のデータの場合、正規性からのごくわずかな逸脱でも検出できるため、実用的な目的では、帰無仮説イベントハフが拒否され、データは通常よりも十分に多くなります。 [...]幸いにも、shapiro.testは、データサイズを5000に制限することにより、上記の影響からユーザーを保護します。 そもそもなぜ正規分布をテストしているのか: 一部の仮説検定は、データの正規分布を前提としています。これらのテストを使用できるかどうかを知りたい。

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

1
キャレットパッケージでRandomForestのFinalModelを使用して予測する前に前処理が必要ですか?
キャレットパッケージを使用して、randomForestオブジェクトを10x10CVでトレーニングします。 library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) その後、testSetでrandomForestをテストします(新しいデータ) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) 混乱行列は、モデルがそれほど悪くないことを私に示しています。 confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No Information Rate : 0.7548 P-Value …

2
完全に分散した点パターンでモランの私が「-1」に等しくないのはなぜですか
ウィキペディアは間違っていますか...それとも理解できませんか? ウィキペディア:白と黒の正方形(「チェスパターン」)は完全に分散しているため、モランのIは-1になります。白い四角がボードの半分に積み重ねられ、黒い四角がもう一方に積み重ねられた場合、モランのIは+1に近くなります。正方形の色のランダムな配置は、Moran's Iに0に近い値を与えます。 # Example data: x_coor<-rep(c(1:8), each=8) y_coor<-rep(c(1:8), length=64) my.values<-rep(c(1,0,1,0,1,0,1,0,0,1,0,1,0,1,0,1), length=64) rbPal <- colorRampPalette(c("darkorchid","darkorange")) my.Col <- rbPal(10)[as.numeric(cut(my.values,breaks = 10))] # plot the point pattern... plot(y_coor,x_coor,col = my.Col, pch=20, cex=8, xlim=c(0,9),ylim=c(0,9)) ご覧のとおり、ポイントは完全に分散しています # Distance matrix my.dists <- as.matrix(dist(cbind(x_coor,y_coor))) # ...inversed distance matrix my.dists.inv <- 1/my.dists # diagonals are "0" diag(my.dists.inv) …

1
動的因子分析と状態空間モデル
RのMARSSパッケージは、動的因子分析のための機能を提供します。このパッケージでは、動的因子モデルは、状態空間モデルの特殊な形式として記述され、共通の傾向がAR(1)プロセスに従うと想定しています。私はこれらの2つの方法にあまり詳しくないので、2つの質問が出てきます。 動的因子分析は、状態空間モデルの特別な形式ですか?これら2つの方法の違いは何ですか? さらに、動的因子分析は、AR(1)プロセスとして一般的な傾向を想定する必要はありません。季節的なARIMA(またはその他の)プロセスとして共通の傾向を可能にするパッケージはありますか?

1
ロジスティック回帰モデルの操作
次のコードが何をしているかを理解したいと思います。コードを書いた人はここではもう働かず、ほとんど完全に文書化されていません。私は「考えて誰かにそれを調査するように頼まれたことは、ベイズロジスティック回帰モデルです」 bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- 1/(1 + exp(-(X %*% betastar))) …

2
Rでのk平均クラスタリングの結果の解釈
kmeansアンダーソンのアイリスデータセットでk平均アルゴリズムを実行するために、R の命令を使用していました。取得したいくつかのパラメーターについて質問があります。結果は次のとおりです。 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 この場合、「クラスターの意味」とはどういう意味ですか?クラスタ内のすべてのオブジェクトの距離の平均ですか? また、私は最後の部分で: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) その値は88.4%で、その解釈は何でしょうか?

1
Rでの順序付きロジットの予測
順序付きロジット回帰を実行しようとしています。私はそのようにモデルを実行しています(収入と人口の測定から市場の企業数を推定するばかげた小さなモデル)。私の質問は予測についてです。 nfirm.opr<-polr(y~pop0+inc0, Hess = TRUE) pr_out<-predict(nfirm.opr) 予測を実行すると(予測されたyを取得するために使用しています)、出力は0、3、または27のいずれかであり、これは係数からの手動予測に基づく予測であると思われるものを反映するものではありません推定と傍受。注文したロジットモデルの「正確な」予測を取得する方法を知っている人はいますか? 編集 私の懸念を明確にするために、私の応答データにはすべてのレベルにわたる観察があります >head(table(y)) y 0 1 2 3 4 5 29 21 19 27 15 16 私の予測変数が集まっているように見えるところ > head(table(pr_out)) pr_out 0 1 2 3 4 5 117 0 0 114 0 0

1
nlmer()を使用して反復測定データの非線形混合効果モデルをどのように近似しますか?
私は繰り返し測定データを分析しようとしており、それをで機能させるのに苦労していRます。私のデータは基本的に次のとおりです。2つの治療グループがあります。各グループのすべての被験者は毎日テストされ、スコア(テストの正解率)が与えられます。データは長い形式です: Time Percent Subject Group 1 0 GK11 Ethanol 2 0 GK11 Ethanol 3 0 GK11 Ethanol 4 0 GK11 Ethanol 5 0 GK11 Ethanol 6 0 GK11 Ethanol データはロジスティック曲線に似ており、被験者は数日間非常にうまく機能せず、その後急速に改善し、その後プラトーになります。処理がテストパフォーマンス曲線に影響を与えるかどうかを知りたいのですが。私の考えはnlmer()、のlme4パッケージで使用することでしたR。以下を使用して、グループごとに線を合わせることができます。 print(nm1 <- nlmer(Percent ~ SSlogis(Time,Asym, xmid, scal) ~ Asym | Subject, salinedata, start = c(Asym =.60, xmid = 23, scal …

3
順列を繰り返さずにRでリサンプリングする方法は?
Rでは、set.seed()を実行してから、サンプル関数を使用してリストをランダム化した場合、同じ順列を生成しないことを保証できますか? つまり... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } これにより [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 1 [1] 0 1 3 2 …

1
Rを使用して臨界t値を計算するにはどうすればよいですか?
これが新しい質問の場合は申し訳ありません。初めて統計を教えようとしています。基本的な手順は下がっていると思いますが、Rで実行するのに苦労しています。 だから、私は形の多重線形回帰における回帰係数の有意性を評価しようとしています y^=Xβ^y^=Xβ^ \hat y = X \hat \beta をテストするためのt統計はH0:β^j=0,Ha:β^j≠0H0:β^j=0,Ha:β^j≠0H_0: \hat \beta_j = 0, H_a: \hat \beta_j \neq 0 t0=β^j−0se(β^j)=β^jσ^2Cjj−−−−−√=β^jCjjSSRes/(n−p)−−−−−−−−−−−−−−√t0=β^j−0se(β^j)=β^jσ^2Cjj=β^jCjjSSRes/(n−p)t_0 = \frac{\hat \beta_j - 0}{\text{se}(\hat \beta_j)} = \frac{\hat \beta_j}{\sqrt{\hat \sigma^2 C_{jj}}} = \frac{\hat \beta_j}{\sqrt{C_{jj} SS_{Res}/(n-p)}} ここで、はCjjCjjC_{jj}jthjthj^{th}対角要素です。(X′X)−1(X′X)−1(X'X)^{-1} ここまでは順調ですね。Rの行列演算を使用してこれらすべての値を計算する方法を知っています。しかし、ヌルを拒否するために、この本にはが必要だと書かれています |t0|>tα/2,n−p|t0|>tα/2,n−p|t_0| > t_{\alpha/2,n-p} R を使用してこの重要な値をどのように計算できますか?tα/2,n−ptα/2,n−pt_{\alpha/2,n-p} 現在、これらの値を見つける方法を知る唯一の方法は、本の巻末の表を調べることです。もっと良い方法があるはずです。

2
JAGSでゼロ膨張ポアソンを設定するにはどうすればよいですか?
RとJAGSでゼロ膨張ポアソンモデルを設定しようとしています。私はJAGSを初めて使用するので、その方法についていくつかのガイダンスが必要です。 私は、y [i]が観測された変数である以下を試してみました model { for (i in 1:I) { y.null[i] <- 0 y.pois[i] ~ dpois(mu[i]) pro[i] <- ilogit(theta[i]) x[i] ~ dbern(pro[i]) y[i] <- step(2*x[i]-1)*y.pois[i] + (1-step(2*x[i]-1))*y.null[i] log(mu[i]) <- bla + bla +bla + .... theta[i] <- bla + bla + bla + .... } } ただし、監視変数で<-を使用できないため、これは機能しません。 これを変更/修正する方法はありますか?JAGSでゼロ膨張ポアソンモデルを設定する別の方法はありますか?

4
全体を置き換えずに、大きなリストから10個のサンプルを多数取り出す方法
大量のデータセット(20,000データポイント)があり、そこから10データポイントの繰り返しサンプルを取得します。ただし、これらの10個のデータポイントを選択したら、それらを再度選択しないようにします。 sample関数を使用してみましたが、関数の複数の呼び出しを置き換えずにサンプリングするオプションがないようです。これを行う簡単な方法はありますか?
12 r  sample 

3
ランダムフォレストの回帰がトレーニングデータよりも高いと予測しない
少なくともでR、ランダムフォレスト回帰モデルを構築するとき、予測値がトレーニングデータにあるターゲット変数の最大値を決して超えないことに気づきました。例として、以下のコードを参照してください。データにmpg基づいて予測する回帰モデルを構築していmtcarsます。私はOLSとランダムフォレストモデルを構築し、それらを使用しmpgて、非常に優れた燃費が必要な仮想車を予測します。OLSは予想mpgどおり高いを予測しますが、ランダムフォレストは予測しません。もっと複雑なモデルでもこれに気づきました。どうしてこれなの? > library(datasets) > library(randomForest) > > data(mtcars) > max(mtcars$mpg) [1] 33.9 > > set.seed(2) > fit1 <- lm(mpg~., data=mtcars) #OLS fit > fit2 <- randomForest(mpg~., data=mtcars) #random forest fit > > #Hypothetical car that should have very high mpg > hypCar <- data.frame(cyl=4, disp=50, hp=40, drat=5.5, wt=1, qsec=24, vs=1, …
12 r  random-forest 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.