タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。


1
因子分析でバイナリ変数のピアソン相関(四重相関の代わりに)を計算する危険性は何ですか?
私は教育用ゲームの研究を行っています。現在のプロジェクトのいくつかは、BoardGameGeek(BGG)とVideoGameGeek(VGG)のデータを使用して、ゲームの設計要素間の関係を調べています(つまり、「第二次世界大戦の始まり」、「ローリングダイスを含む」)。 )およびそれらのゲームのプレイヤーの評価(つまり、10点満点)。これらの各設計要素は、BGGまたはVGGシステムのタグに対応しているため、各要素は本質的に二分変数です。ゲームには、データベースに存在するすべてのタグに1があり、存在しないすべてのタグに0があります。 これらのタグは数十あるので、探索的要因分析(EFA)を使用して、ゲームデザインのパターンをキャプチャする管理可能な数の「ジャンル」を考え出します。いくつかの情報源を調べて、私は二分変数を扱っているので、私の要因を思い付くとき、ピアソンの相関の代わりにポリコリック相関(特にここではテトラコリック)を使用する必要があることを理解しています(潜在特性分析などの他のオプションもあります—そこにありますが、これは私が今探っているものです)。 好奇心から、ピアソン相関を使用する因子とポリコリック相関を使用する因子(それぞれ同じ数の因子)の2組の因子を思いつきました。私の問題は、ピアソン相関を使用して計算された因子は、ポリコリック相関を使用して計算された因子よりもはるかに意味があり、解釈が容易であることです。つまり、最初の要素セットの「ジャンル」は直感的に理解でき、ゲームの一般的な設計方法に関する私の理解と一致しています。これは、2番目の要素セットには当てはまりません。 一方では、使用しているテストの前提を満たしていることを確認したいのですが、それによって結果が見栄えが悪くなります。一方で、因子分析と(より広範には)モデル構築の目標の一部は有用なものを生み出すことであると感じ、私が「ルールを破る」ときに、より有用な情報が浮かび上がってきます。このテストの仮定に違反することを上回るのに十分なモデルが必要ですか?ポリコリック相関の代わりにピアソン相関を使用すると、どのような結果になりますか?

3
auto.arima()のp、d、qを読み取る方法は?
によって推定されp,d and qたARIMA(p,d,q)モデルの値を取得するにはどうすればよいauto.arima(mytimeseries)ですか? arima_model <-auto.arima(mytimeseries、ic = 'bic') の出力を見ると arima_model $ arma 我々が得る、 [1] 1 0 0 0 1 2 0 上記のシーケンスに表示される数字の意味は何ですか?
10 r  arima 

1
単純なパーセプトロンをカーネル化する方法は?
非線形境界の分類問題は、単純なパーセプトロンでは解決できません。次のRコードは説明のためのものであり、Python でのこの例に基づいています)。 nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, 3,1), ncol=2, byrow=T) y <- c(0,0,1,1,1,0,0) syn0 <- runif(2,-1,1) for (iter in 1:100000) { l1 <- nonlin(X %*% syn0) l1_error <- y - l1 l1_delta <- l1_error …

2
フィッシャー法またはストファー法を使用してp値を組み合わせるためのRパッケージ
p値を組み合わせるためのフィッシャーまたはストファーの方法を実装するRパッケージ(またはベースR関数)はありますか?これをコーディングすることはほとんど取るに足らないことですが、私はむしろパッケージを使用(そして引用)します。 この質問のサンプルコード:p値をとかすためのフィッシャーの方法-下裾についてはどうですか?

1
ラプラス分布の2つの平均をどのように比較できますか?
1分の在庫返品の2つのサンプル平均を比較したいと思います。私はそれらがラプラス分布(すでにチェックされている)であると想定し、リターンを2つのグループに分割します。それらが大幅に異なるかどうかを確認するにはどうすればよいですか? 300を超える値であっても、QQプロットは正規分布に大きな違いがあることを示しているため、正規分布のように扱うことはできないと思います。

1
混合効果モデルのモデルマトリックス
ではlmer内機能lme4でRランダム効果のモデル行列を構築するための呼び出しがあり、、のように説明し、ここ 9 -ページ7。ZZZ 計算には、2つの行列および KhatriRaoおよび/またはKronecker積が伴います。 ZZZJiJiJ_iXiXiX_i マトリックスは一口です:「グループ化因子インデックスのインジケーターマトリックス」ですが、より高い階層レベルに対応するユニット(たとえば、反復測定の対象)を選択するためのダミーコーディングを持つスパースマトリックスのようです。観察。マトリックスが共に「セレクタ」の組み合わせは、マトリックスを生じるように、下位階層での測定のセレクタとして機能するように思われ、形態の以下の例を介して紙に示します:JiJiJ_iXiXiX_iZiZiZ_i (f<-gl(3,2)) [1] 1 1 2 2 3 3 Levels: 1 2 3 (Ji<-t(as(f,Class="sparseMatrix"))) 6 x 3 sparse Matrix of class "dgCMatrix" 1 2 3 [1,] 1 . . [2,] 1 . . [3,] . 1 . [4,] . 1 . [5,] . . …

1
Rの「前の状態」が「後の状態」に影響を与えるかどうかをテストする方法
状況を想像してみてください。3つの鉱山の歴史的な記録(20年)があります。銀の存在は来年金を見つける確率を高めますか?そのような質問をテストする方法は? 以下はデータの例です。 mine_A <- c("silver","rock","gold","gold","gold","gold","gold", "rock","rock","rock","rock","silver","rock","rock", "rock","rock","rock","silver","rock","rock") mine_B <- c("rock","rock","rock","rock","silver","rock","rock", "silver","gold","gold","gold","gold","gold","rock", "silver","rock","rock","rock","rock","rock") mine_C <- c("rock","rock","silver","rock","rock","rock","rock", "rock","silver","rock","rock","rock","rock","silver", "gold","gold","gold","gold","gold","gold") time <- seq(from = 1, to = 20, by = 1)

1
混合効果モデルと固定効果モデルの比較(変量効果の有意性のテスト)
正の連続であると、およびカテゴリカルであるの3つの変数を考えるyとx、次のz2つの候補モデルが与えられます。 fit.me <- lmer( y ~ 1 + x + ( 1 + x | factor(z) ) ) そして fit.fe <- lm( y ~ 1 + x ) これらのモデルを比較して、どちらのモデルがより適切かを判断したいと思います。ある意味fit.feで内にネストされているように思えますfit.me。通常、この一般的なシナリオが当てはまる場合、カイ2乗検定を実行できます。ではR、次のコマンドでこのテストを実行できます。 anova(fit.fe,fit.me) 両方のモデルに(パッケージlmerから生成されたlme4)ランダム効果が含まれている場合、anova()コマンドは正常に機能します。境界パラメーターがあるため、通常は、結果として得られるカイ2乗統計量をシミュレーションでテストすることをお勧めします。それでも、シミュレーション手順で統計量を使用できます。 両方のモデルに固定効果のみが含まれている場合、このアプローチ---および関連するanova()コマンド---はうまく機能します。 ただし、上記のシナリオのように、1つのモデルにランダム効果が含まれ、削減モデルに固定効果のみが含まれる場合、anova()コマンドは機能しません。 具体的には、次のエラーが発生します。 > anova(fit.fe, fit.me) Error: $ operator not defined for this S4 class 上から(シミュレーションで)カイ二乗アプローチを使用することに問題はありますか?あるいは、これは単に、anova()さまざまな関数によって生成された線形モデルを処理する方法を知らないという問題ですか? 言い換えれば、モデルから導出されたカイ2乗統計量を手動で生成することが適切でしょうか?もしそうなら、これらのモデルを比較するための適切な自由度は何ですか?私の計算で: F= ((SSER …

1
スムーズスプライン/レス回帰のp値を見つけるにはどうすればよいですか?
いくつかの変数があり、それらの間の非線形関係を見つけることに興味があります。そこで、私はいくつかのスプラインまたはレスをフィットさせ、素敵なプロットを印刷することにしました(以下のコードを参照)。しかし、私はまた、関係がランダム性の問題である可能性がどのくらいあるかという考えを与えるいくつかの統計を取得したいと考えています...たとえば、線形回帰の場合のように、全体的なp値が必要です。言い換えると、私のコードは曲線を任意のデータに適合させるため、適合した曲線が意味を成しているかどうかを知る必要があります。 x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ x) x.pr <- seq(min(x), max(x), length.out = 100) lines(x.pr, …
10 r  regression  splines  loess 

1
ブートストラップ:推定値が信頼区間外です
私は混合モデル(相互作用を持ついくつかの変数と1つの確率変数)でブートストラップを行いました。私はこの結果を得ました(部分的なのみ): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std. error t1* 4.887383e+01 -1.677061e+00 4.362948e-01 t2* 3.066825e+01 1.264024e+00 5.328387e-01 t3* 8.105422e+01 2.368599e+00 6.789091e-01 t4* 1.620562e+02 4.908711e+00 1.779522e+00 ...... 次に、切片の信頼区間を取得したいと思います。 > boot.ci(boot_out,type=c("norm","basic","perc"), index=1) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on …

2
堅牢な標準誤差を含む分散分析表を取得するにはどうすればよいですか?
私はRのplmパッケージを使用してプールされたOLS回帰を実行しています。ただし、私の質問は基本的な統計に関するものなので、まずここに投稿してみます;) 私の回帰結果は不等分散残差を生成するので、不等分散ロバスト標準誤差を使用してみます。その結果、coeftest(mod, vcov.=vcovHC(mod, type="HC0"))各独立変数の推定値、標準誤差、t値、およびp値を含むテーブルが得られます。これらは基本的に私の「堅牢な」回帰結果です。 さまざまな変数の重要性を議論するために、各独立変数によって説明される分散のシェアをプロットしたいので、それぞれの二乗和が必要です。しかし、functionを使用するとaov()、Rに堅牢な標準エラーを使用するように指示する方法がわかりません。 今私の質問は:どのようにしてロバストな標準誤差を参照するANOVAテーブル/平方和を取得するのですか?通常の標準誤差のある回帰からの分散分析表に基づいてそれを計算することは可能ですか? 編集: つまり、Rの問題を無視します。 Rがロバストな標準誤差を使用しても影響を受けない場合、さまざまな説明変数による説明付き分散へのそれぞれの寄与も変化しませんか?22^2 編集: Rでは、aov(mod)実際にpanelmodel(plm)の正しいANOVAテーブルを提供しますか?

3
glm in R-どのpvalueがモデル全体の適合度を表すか?
私はG(一般化線形モデル)でglmsを実行しています。私はpvalueを知っていると思いました-glmの要約を呼び出しても、モデル全体を表すオーバーライドpvalueが得られないことがわかるまでは、少なくとも線形モデルの場合はそうではありません。 これは、係数の表の一番上にある切片のp値として指定されているかどうか疑問に思っています。したがって、次の例では、Wind.speed..knotsとcanopy_densityはモデルにとって重要である可能性がありますが、モデル自体が重要であるかどうかをどのように知ることができますか?これらの値を信頼するかどうかはどうすればわかりますか?(切片)のPr(> | z |)がモデルの重要性を表していると思いますか?このモデルは重要な人々ですか??? ありがとう! 2項式族でF検定を実行することは不適切であるというエラーメッセージが表示されるため、F検定を実行してもp値は得られないことに注意してください。 Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = binomial, data = CAIRNGORM) Deviance Residuals: Min 1Q Median 3Q Max -1.2327 -0.7167 -0.4302 -0.1855 2.3194 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.8226 1.2030 1.515 0.1298 Wind.speed..knots. -0.5791 0.2628 -2.203 0.0276 …

3
大きなN、離散データ、および多くの変数がある場合、散布図行列から情報を抽出する方法は?
私は乳がんのデータセットをいじって、すべての属性の散布図を作成して、(赤)のクラスmalignant(青)の予測に最も影響を与えるものを把握しましたbenign。 行がx軸を表し、列がy軸を表すことを理解していますが、この散布図のデータまたは属性についてどのような観測ができるかわかりません。 この散布図からのデータを解釈/観察するためのヘルプ、またはこのデータを視覚化するために他の視覚化を使用する必要があるかどうかを探しています。 使用したRコード link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast <- read.arff(link) cols <- character(nrow(breast)) cols[] <- "black" cols[breast$class == 2] <- "red" cols[breast$class == 4] <- "blue" pairs(breast, col=cols)

2
R randomForestsの分類のしきい値を変更するにはどうすればよいですか?
すべての種分布モデリングの文献では、確率を出力するモデル(RandomForestsなど)を使用して種の存在/不在を予測するときに、実際に種を存在または不在として分類するためのしきい値確率の選択が重要であり、常にデフォルトの0.5に依存するわけではありません。これについて少し助けが必要です!これが私のコードです: library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted RFpred <- predict(RFfit, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.