タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
共和合のヨハンセン検定
私はヨハンセン検定を使用して共和分をテストしています。テスト結果の解釈方法などの質問を見てきましたが、私の解釈では疑問がいくつかあります。r = 3からの私の結果では4.10 < 10.49、静止したシリーズを形成することはできません。これは、R = 2およびr = 1のしかしに対して同じであるr = 0、86.12 > 59.14ので、固定の組み合わせがあります。 しかしr = 0、共積分ベクトルがゼロであることを意味します。それは私のデータが相互統合されておらず、したがってVECMを構築できないことを意味しますか? 以下に私の結果を見つけてください。 > cointegration <- ca.jo(Canada, type="trace",ecdet="trend",spec="transitory") > summary(cointegration) ###################### # Johansen-Procedure # ###################### Test type: trace statistic , with linear trend in cointegration Eigenvalues (lambda): [1] 4.483918e-01 2.323995e-01 1.313250e-01 4.877895e-02 -1.859499e-17 Values of teststatistic …

1
Rのトレーニングプロセスのステータスを確認する[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前休業。 caretRでパッケージを使用してモデルをほぼ3日間トレーニングしています。計算は並列に実行されます(複数のプロセス)。残念ながら、Rコンソール(kernlabパッケージのSVMモデル)には出力がないため、10%と90%のどちらが完了したかはわかりません。 どういうわけか計算のプロセスを理解する方法はありますか? 私はOS Xを使用しているので、プロセススタックをダンプして、現在評価されているパラメーター値またはk倍の反復を見つけようとしている可能性があります。しかし、どうやって? 編集:トレーニング用のスクリプト: ctrl <- trainControl(method = "cv", number = 10, selectionFunction = "best", classProbs = TRUE, summaryFunction = twoClassSummary, verboseIter = TRUE) grid_svm <- expand.grid(.C = logseq(2^-15, 2^3, 10)) svm <- train(CLASS ~ ., data = dataset, method = "svmLinear", preProcess = c("center", …

2
乗算されたデータを持つlmer
多重補完後にlmerのランダム効果をプールするにはどうすればよいですか? マウスを使用してデータフレームを複数入力しています。そして、ランダム切片とランダム勾配を持つ混合モデルのlme4。lmerのプールは、ランダムな効果をプールしないことを除いて、うまくいきます。私は運がなければ解決策をたくさん探しました。私はmiパッケージを試しましたが、見積もりとstd.errorのプールされた出力しか表示されません。私は運がなければマウスオブジェクトをspssにエクスポートしようとしました。Zeligについての議論がありました。これで問題が解決するかもしれません。しかし、lmerの帰属データを含むパッケージの使用方法を理解できませんでした。 マウスパッケージでは固定効果のプールのみがサポートされています。回避策はありますか? 複数の帰属: library(mice) Data <- subset(Data0, select=c(id, faculty, gender, age, age_sqr, occupation, degree, private_sector, overtime, wage)) ini <- mice(Data, maxit=0, pri=F) #get predictor matrix pred <- ini$pred pred[,"id"] <- 0 #don't use id as predictor meth <- ini$meth meth[c("id", "faculty", "gender", "age", "age_sqr", "occupation", "degree", "private_sector", "overtime", "wage")] …

2
RでのCCF相関の解釈
ccf2つの時系列間の相関関係を見つけるために使用しています。私はそのようなプロットを得ています: lag = 0の相関に主に関心があることに注意してください。質問: このラグは相互相関が点線の上にあるので、ラグ= 0には相互相関があると正しく解釈しますか? この例で相互相関のレベルをどのように解釈すればよいですか、これは重要ですか(私は今それを解釈しているため、小さな相互相関があります)? acflag = 0の値のみを抽出するにはどうすればよいですか?

2
カイ二乗検定を使用して、データがポアソン分布に従うかどうかを判断する方法
次の図(このペーパーの 646ページの図1 )は、ポアソン分布の下で観測値と期待値を比較しています。次に、カイ二乗検定を実行して、観測値がポアソン分布での期待値と異なるかどうかを確認します。 Rを使用して、ポアソン分布の下で期待値を生成し、カイ2乗検定を使用して観測値を比較するにはどうすればよいですか? 編集: これが彼らが紙でしたことをやろうとする私の試みです。の観測された分布がvariableポアソン分布と異なるかどうか知りたい。また、私が以下で行ったことは、彼らが紙で行ったのと同じ手順であるかどうかも知りたいです。P値が> 0.05であるため、variable以下の分布はポアソン分布に従うと結論しました-誰かがこれを確認できますか? df <- data.frame(variable = 0:5, frequency = c(20, 10, 5, 3, 2, 1)) # estimate lambda mean_df_variable <- mean(df$variable) # calculate expected values if df$frequency follows a poisson distribution library(plyr) expected <- laply(0:5, function(x) dpois(x=x, lambda=mean_df_variable, log = FALSE)) # calculate actual distribution …

2
カテゴリーおよび数値予測子を使用した重回帰
私はRに比較的慣れていないので、カテゴリー列と数値(整数)列で構成されるデータにモデルを適合させようとしています。従属変数は連続番号です。 データの形式は次のとおりです。 predCateg、predIntNum、ResponseVar データは次のようになります。 ranking, age_in_years, wealth_indicator category_A, 99, 1234.56 category_A, 21, 12.34 category_A, 42, 234.56 .... category_N, 105, 77.27 Rでこれを(おそらくGLMを使用して)どのようにモデル化しますか? [[編集]] (データをより徹底的に分析した後)たまたまカテゴリカルな独立変数が実際に順序付けられていることに気づきました。したがって、私は以前に提供された答えを次のように変更しました: > fit2 <- glm(wealth_indicator ~ ordered(ranking) + age_in_years, data=amort2) > > fit2 Call: glm(formula = wealth_indicator ~ ordered(ranking) + age_in_years, data = amort2) Coefficients: (Intercept) ordered(ranking).L ordered(ranking).Q …

1
データがパレート分布に適合しているかどうかを知る方法は?
220の数値を持つベクトルのサンプルがあります。これが私のデータのヒストグラムへのリンクです。。そして、私のデータがパレート分布に適合するかどうかを確認したいのですが、その分布でQQプロットを表示したくありませんが、正規性のアンダーソンダーリング検定(ad.test)など、Rのp値で正確な答えが必要です。どうすればできますか?できるだけ具体的にご記入ください。

6
グループ化された時系列の遅延
時系列にはありますが場所ごとにグループ化された数万の観測があります。例えば: location date observationA observationB --------------------------------------- A 1-2010 22 12 A 2-2010 26 15 A 3-2010 45 16 A 4-2010 46 27 B 1-2010 167 48 B 2-2010 134 56 B 3-2010 201 53 B 4-2010 207 42 私は月かどうかを確認したいのxさんは、observationA月との任意の線形の関係があるのx + 1つのをobservationB。 私はいくつかの調査を行い、zoo関数を見つけましたが、グループごとの遅延を制限する方法がないようです。したがって、動物園を使用しobservationB、1行遅れている場合observationB、場所Bが最初になり、場所Aが最後になりますobservationB。私はむしろ、「この行に触れないでください」を示す最初observationBの場所NAまたは他の明白な値を設定したいと考えています。 私が得ているのは、Rでこれを行う組み込みの方法があるかどうかです。そうでない場合は、標準のループ構造でこれを実行できると思います。それともデータを操作する必要がありますか?

1
キャレットと比較したmlr
私は機械学習について学ぶためにmlrを少し使ってきましたが、最近キャレットについて知りました。 私が理解している方法は、どちらもさまざまなMLパッケージのラッパーですが、アプローチが少し異なるということです。mlrはキャレットの一部をラップするようにも見えますが、おそらくmlrをキャレットのスーパーセットと見なすことができます。 私はその理由のためにmlrを使い続けることを心がけています。両方を切り替える必要があるか、両方を学ぶ必要がないようにします。しかし、私はキャレットの作者が整頓された人々に加わっ​​たことも聞いた-おそらくこれは今や事実上の標準になるだろう。 私は明らかにmlrを使用し、キャレットについて少し読んでいましたが、MLの経験が比較的不足していることを考えると、私は2つの教育を受けた評価を行う資格があるとは特に思っていません。 2つのパッケージの長所/短所について、より多くのものをカバーし、より合理化されたアプローチを持ち、より柔軟で、他のコメントなどがあるかについての意見はありますか? 編集:代わりにこれをdatascienceに投稿しないことをお詫びします。これは、Pythonによって支配されているようです(mlrまたはcaretタグはありません)。たぶん、stackoverflowの方がいいかもしれませんが、私はそれらを使用する統計学者の見解にかなり興味があります。


3
Rで棒が並んでいる棒グラフ図を作成する方法
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 Rでこれらのデータの棒グラフを作成したい(CVSファイルから読み取った): Experiment_Name MetricA MetricB Just_X 2 10 Just_X_and_Y 3 20 次の図を作成します。 私は初心者であり、開始する方法すら知りません。

3
複数の表面接触後に指で拾った細菌:非正常データ、反復測定、交差した参加者
はじめに 2つの条件(A =手袋を着用、B =手袋を着用しない)で、汚染された表面に大腸菌を繰り返し接触している参加者がいます。手袋をした場合と使用しない場合の指先の細菌の量に違いがあるかどうか、また接触の数に違いがあるかどうかを知りたいです。どちらの要素も参加者内にあります。 実験方法: 参加者(n = 35)は、同じ指で各正方形に1回タッチして、最大8つのコンタクトを作成します(図aを参照)。 次に、参加者の指を拭いて、接触するたびに指先の細菌を測定します。次に、新しい指を使用して、1〜8個の接点など、さまざまな数の表面に触れます(図bを参照)。 これが実際のデータです。実際のデータ データは正常ではないため、下のバクテリアの分布| NumberContactsを参照してください。x =細菌。各ファセットは異なる数の連絡先です。 モデル NumberContactsにGamma(link = "log")と多項式を使用してアメーバの提案に基づいてlme4 :: glmerから試してみます。 cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant), data=(K,CFU<4E5), family=Gamma(link="log") ) plot(cfug) NB。GIRA(link = "inverse")は、PIRLSのステップを半分にしても逸脱を減らすことができなかったとは言いません。 結果: cfugの近似vs残差 qqp(resid(cfug)) 質問: 私のglmerモデルは、各参加者のランダムな効果と、誰もが実験Aに続いて実験Bを行うという事実を組み込むように適切に定義されていますか? 添加: 参加者間には自己相関があるようです。これはおそらく、それらが同じ日にテストされなかったためであり、細菌のフラスコは時間とともに成長し、減少します。それは重要ですか? acf(CFU、lag = 35)は、ある参加者と次の参加者の間の有意な相関を示しています。

3
1または-1に等しい変量効果の相関関係をどうするか?
複雑な最大混合モデル(特定のデータとモデルのすべての可能な変量効果を推定する)を扱う場合、それほど珍しいことではありませんが、一部の変量効果の間で完全(+1または-1)またはほぼ完全な相関関係です。議論のために、次のモデルとモデルの要約を見てみましょう Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects Random effects: Groups Name …

2
勾配降下法で固定ステップサイズを使用すると、ステップが小さくなるのはなぜですか?
一定のステップサイズα = 0.03を使用して、2次関数最小化して、勾配が適切なおもちゃの例を実行するとします。(A = [ 10 、2 、2 、3 ])バツTA xxTAxx^TAxα = 0.03α=0.03\alpha=0.03A = [ 10 、2 。2 、3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 各反復でのトレースをプロットすると、次の図が得られます。固定ステップサイズを使用すると、ポイントが「非常に密」になるのはなぜですか。直感的には、固定ステップサイズではなく、減少ステップサイズのように見えます。バツxx PS:Rコードにはプロットが含まれます。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, 1, …

1
lme4 glmerおよびglmer.nbを使用してカウントデータGLMMを解釈するのに役立ちます-負の2項対ポアソン
GLMMの仕様と解釈につ​​いて質問があります。3つの質問は間違いなく統計的で、2つはRについてより具体的です。最終的に問題はGLMMの結果の解釈だと思うので、ここに投稿します。 私は現在GLMMに適合させようとしています。Longitudinal Tract Databaseの米国国勢調査データを使用しています。私の観察は国勢調査地区です。私の従属変数は空いている住宅の数で、空室と社会経済変数の関係に興味があります。ここの例は単純で、2つの固定効果を使用しています。非白人人口の割合(人種)と中央値世帯収入(クラス)、およびそれらの相互作用です。私は2つの入れ子にされたランダム効果を含めたいと思います:数十年から数十年以内のトラクト、つまり(10年/トラクト)。私はこれらのランダムを、空間的(すなわちトラクト間)および時間的(すなわち数十年間)の自己相関を制御するために検討しています。ただし、固定効果としては10年にも興味があるので、固定要素としても含めています。 私の独立変数は非負の整数カウント変数であるため、ポアソンおよび負の二項GLMMを近似しようとしています。オフセットとして、総住宅数のログを使用しています。これは、係数が空き家の総数ではなく、空室率への影響として解釈されることを意味します。 私は現在、ポアソンと負の二項GLMMの結果からglmerとglmer.nbを用いて推定していlme4。係数の解釈は、データと研究領域に関する私の知識に基づいて私には理にかなっています。 データとスクリプトが必要な場合は、私のGithubにあります。スクリプトには、モデルを構築する前に行った記述的調査の詳細が含まれています。 これが私の結果です: ポアソンモデル Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod'] Family: poisson ( log ) Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10) Data: scaled.mydata AIC BIC logLik deviance df.resid …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.