タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。


2
RにおけるWilcoxon-Mann-Whitneyの臨界値
Rを使用してマンホイットニーUの臨界値を見つけようとすると、値は常に1+臨界値であることに気づきました。たとえば、場合、(両側)臨界値は8ですが、α = .05 、n = 12 、m = 8の場合、(両側)臨界値値は22(表を確認)ですが、次のようになります。α=.05,n=10,m=5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5α=.05,n=12,m=8α=.05,n=12,m=8\alpha=.05, n=12, m=8 > qwilcox(.05/2,10,5) [1] 9 > qwilcox(.05/2,12,8) [1] 23 もちろん、私は何かを考えていませんが...なぜ誰かが私に理由を説明できますか?

2
負の二項回帰を使用する場合、Rはクラスターオプションと同等
私は同僚の仕事を再現しようとしており、分析をStataからRに移動しています。彼女が採用するモデルは、nbreg関数内の「クラスター」オプションを呼び出して標準エラーをクラスター化します。 このオプションの内容と理由のかなり完全な説明については、http://repec.org/usug2007/crse.pdfを参照してください 私の質問は、R内の負の二項回帰に対して同じオプションを呼び出す方法ですか? 私たちの論文の主要なモデルは、次のようにスタタで指定されています xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) そして私はこれを pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) これは明らかにクラスター化されたエラーの一部を欠いています。 正確な複製を行うことは可能ですか?もしそうなら?そうでない場合、いくつかの合理的な代替手段は何ですか? ありがとう [編集]コメントで述べたように、私はマルチレベルモデルの領域に入らない解決策を望んでいました。私のトレーニングでは、これらの事柄が関連しているべきであることがわかりますが、それは私が自分で受け入れることに抵抗するよりも、飛躍的なものです。そのため、私は掘り下げて次のリンクを見つけました:http : //landroni.wordpress.com/2012/06/02/fama-macbeth-and-cluster-robust-by-firm-and-time-standard-errors-in- r / これは、私がやりたいことを行うためのかなり単純なコードを指します。 library(lmtest) pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) summary(pday) coeftest(pday, …



2
MarkowitzポートフォリオはRの分散最適化を意味します
私は5つの新興市場の外国為替のトータルリターンシリーズを持っています。これについては、単一期間の将来のリターン(1年)を予測しています。過去の分散と共分散(1)と自分自身の予測期待収益を使用して、5シリーズのマルコヴィッツ平均分散最適化ポートフォリオを構築したいと思います。Rにはこれを行う(簡単な)方法/ライブラリがありますか?さらに、(1)組み込み関数はありますか? 興味を引くために、私の通貨はUSDTRY、USDZAR、USDRUB、USDHUFおよびUSDPLNです。
10 r 

1
RをC ++に変換します(最終的にはRcppを使用)[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 Rcppの使い方を学びたいのですが。私はパッケージのCRAN Webサイトのドキュメントを読みましたが、実用的な例(2番目の実用的な、convolve3を考慮したもの)に取り組むほうが役立つと思います。 次のコードは、長すぎたり短すぎたりせず、RタイプとR関数の組み合わせを使用し、Rで遅すぎるこれらの小さな算術反復の1つを使用しているため、robustbaseパッケージから提案します。Rcppについてどう思いますか-ingそれ? scaleTau2<-function (x, c1 = 4.5, c2 = 3, consistency = TRUE, mu.too = FALSE){ n <- length(x) medx <- median(x) x. <- abs(x - medx) sigma0 <- median(x.) mu <- if (c1 > 0) { x. <- x./(sigma0 * c1) w <- 1 …
10 r  c++ 

2
ノンパラメトリック回帰の特徴選択の最良の方法
初心者向けの質問はこちら。私は現在、Rのnpパッケージを使用してノンパラメトリック回帰を実行しています。7つの機能と、ブルートフォースアプローチを使用して、ベスト3を特定しました。 私の質問は、ノンパラメトリック回帰の特徴選択の現在の最良の方法は何ですか?そして、パッケージがメソッドを実装している場合。ありがとうございました。

2
CSV列をカテゴリデータとして直接読み取ることはできますか?
Rを使用して、CSVで提供される医療調査(100以上のコード化された列を含む)のデータを分析する必要があります。最初の分析にはガラガラを使用しますが、舞台裏ではまだRです。 ファイルをread.csv()すると、数値コードの列が数値データとして扱われます。factor()を使用してそれらからカテゴリカル列を作成できることは知っていますが、100以上の列に対してそれを行うのは面倒です。 列を因子として直接インポートするようにRに指示するより良い方法があることを願っています。または、少なくとも後でそれらを適切な場所に変換すること。 ありがとうございました!

2
連続変数とバイナリ変数をもつK最近傍点
列a b c(3つの属性)を持つデータセットがあります。aは数値で連続的でありb、c2つのレベルを持つカテゴリカルです。K-Nearest Neighborsメソッドを使用して分類aしbていcます。したがって、距離を測定できるようにするには、bとを削除して追加することでデータセットを変換b.level1しb.level2ます。観測にカテゴリのi最初のレベルがある場合b、b.level1[i]=1およびb.level2[i]=0。 これで、新しいデータセットで距離を測定できます。 a b.level1 b.level2 理論的/数学的観点から:バイナリデータと連続データの両方でK最近傍(KNN)を実行できますか? FNNRでパッケージと関数を使用していますknn()

1
予測にランダム効果を含めずに、混合効果モデルから予測するのはなぜですか?
これはより概念的な質問ですが、私が使用するRときはのパッケージを参照しますR。予測の目的で線形モデルを適合させることを目的としていて、変量効果が利用できない可能性がある場合に予測を行う場合、混合効果モデルを使用するメリットはありますか、それとも代わりに固定効果モデルを使用する必要がありますか? たとえば、他の情報を使用して体重と身長のデータがあり、を使用して次のモデルを作成したlme4場合、subjectはレベルの因子()です。nnnn=no.samplesn=no.samplesn=no.samples mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) 次に、新しい身長と年齢のデータを使用して、モデルから体重を予測できるようにしたいと考えています。明らかに、元のデータの被験者ごとの分散がモデルに取り込まれますが、この情報を予測に使用することは可能ですか?新しい身長と年齢のデータがあり、体重を予測したい場合は、次のようにして行います。 predict(mod1,newdata=newdf) # newdf columns for height, age, subject これが使用されますpredict.merMod、と私はどちらか(新しい)の被験者のための列含むことができnewdf、またはセットをre.form =~0。最初の例では、モデルが「新しい」主題因子をどのように処理するかが明確ではありません。2番目の例では、モデルでキャプチャされた主題別の分散は、予測に対して単に無視(平均)されますか? どちらの場合でも、固定効果の線形モデルの方が適しているように思えます。実際、私の理解が正しければ、変量効果が予測に使用されない場合、固定効果モデルは混合モデルと同じ値を予測するはずです。これは事実でしょうか?それRではありません、例えば: mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject 異なる結果が得られます。 mod2 <- lm(weight ~ …

1
lmモデルのスチューデント化された残差対標準化された残差
「学習された残差」と「標準化された残差」は回帰モデルで同じですか?Rで線形回帰モデルを構築し、スチューデント化された残差v / s近似値のグラフをプロットしたいのですが、Rでこれを行う自動化された方法が見つかりませんでした。 モデルがあるとしましょう library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) 次に、を使用plot(lm.fit)しても、スチューデント化された残差と近似値のプロットは提供されませんが、標準化された残差と近似値のプロットは提供されます。 私はplot(lm.fit$fitted.values,studres(lm.fit)それを使用して、目的のグラフをプロットします。したがって、正しい方向に進んでいて、スチューデント化された残差と標準化された残差が同じではないことを確認したいだけです。それらが異なる場合は、それらとそれらの定義を計算するためのガイドを提供してください。ネットを検索したところ、少しわかりにくいことがわかりました。

2
行動シーケンスから協力を証明する方法
状況: 2羽の鳥(オスとメス)が侵入者から巣の卵を保護します。各鳥は、保護のために攻撃または脅威のいずれかを使用でき、存在する場合と存在しない場合があります。行動が補完的である可能性があるというデータから浮上しているパターンがあります-女性が脅威の表示を使用している間、男性の攻撃はその逆です。 私の質問は、そのような協力を統計的に証明するにはどうすればよいですか? または、誰かが同様の分析を扱う行動研究を知っていますか?私が見つけた逐次分析のほとんどはDNAに焦点を当てています。 ここではいくつかのダミーデータを提供していますが、私の元のデータセットは、巣を守るために正確に10分間記録された数十のペアで構成されています。したがって、すべての鳥の行動シーケンスは600ステートの長さです(1秒ごとにステートがあります)。これらの短いデータには、データセット全体と同様のパターンが含まれているはずです。 male_seq <- rep(c("absent","present","attack","threat","present","attack", "threat","present","attack","absent"), times = c(3,4,8,2,6,3,2,6,2,1)) female_seq <- rep(c("absent","present","threat","present","threat","present", "threat","attack","present","threat","attack","present", "attack","threat","absent"), times = c(2,6,2,1,2,1,1,3,5,3,1,3,3,2,2))

1
フィットしたグラフとガンマ分布の実際のグラフを1つのプロットで描画する方法は?
必要なパッケージをロードします。 library(ggplot2) library(MASS) ガンマ分布に適合した10,000個の数値を生成します。 x <- round(rgamma(100000,shape = 2,rate = 0.2),1) x <- x[which(x>0)] xがどの分布に適合するかわからないと仮定して、確率密度関数を描画します。 t1 <- as.data.frame(table(x)) names(t1) <- c("x","y") t1 <- transform(t1,x=as.numeric(as.character(x))) t1$y <- t1$y/sum(t1[,2]) ggplot() + geom_point(data = t1,aes(x = x,y = y)) + theme_classic() グラフから、xの分布がガンマ分布に非常に似ていることがわかるのでfitdistr()、パッケージでを使用してMASS、ガンマ分布の形状と速度のパラメーターを取得します。 fitdistr(x,"gamma") ## output ## shape rate ## 2.0108224880 0.2011198260 ## (0.0083543575) …

2
Rのcoxph()は繰り返し測定をどのように処理しますか?
環境 Rのcoxph()が被験者(または患者/顧客)の繰り返しエントリをどのように受け入れて処理するかを理解しようとしています。これをロングフォーマットと呼ぶ人もいれば、「反復測定」と呼ぶ人もいます。 たとえば、次のAnswersセクションのID列を含むデータセットを参照してください。 時変共変量を含むCoxモデルに最適なパッケージ また、共変量は全体にわたって時変であり、バイナリである検閲(つまりイベント)変数が1つだけあると仮定します。 ご質問 1)上記のリンクの回答で、coxph()の呼び出しでパラメーターとしてIDが指定されていない場合、結果はcoxph()のパラメーターとしてcluster(ID)を含めるのと同じですか? ドキュメントを検索しようとしましたが、(1)に明確に対処していないようです:https : //stat.ethz.ch/pipermail/r-help//2013-July/357466.html 2)(1)の答えが「いいえ」の場合、(数学的に)なぜですか?coxph()のcluster()は、pgのサブセクション 'cluster'に従って被験者間の相関を求めているようです。20時 https://cran.r-project.org/web/packages/survival/survival.pdf 3)あいまいな質問:反復測定のあるcoxph()は、Rのfrailtypack回帰法とどのように比較されますか? 補遺 cluster(ID)の使用に関する以下のヒント: ログランクテストの繰り返し測定対応バージョンはありますか? 同様に: https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html GEEアプローチ:coxphのモデルステートメントに「+ cluster(subject)」を追加混合モデルアプローチ:coxmeのモデルステートメントに「+(1 | subject)」を追加します。 前もって感謝します!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.