タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

4
Rのロジスティック回帰(オッズ比)
でロジスティック回帰分析を試みていRます。STATAを使用してこの資料をカバーするコースに参加しました。で機能を複製するのは非常に難しいと感じていますR。この分野で成熟していますか?ドキュメントやガイダンスはほとんど入手できないようです。オッズ比出力を生成すると、インストールを必要とするように思わepicalc及び/またはepitools私は仕事に行くことができますいずれも、および/または他の人を、古いまたはマニュアルに欠けています。glmロジスティック回帰を使用してきました。どんな提案も歓迎します。 これを本当の質問にした方がいいです。ロジスティック回帰を実行してオッズ比を生成するにはどうすればよいRですか? 単変量解析のために私がやったことは次のとおりです。 x = glm(Outcome ~ Age, family=binomial(link="logit")) 多変量の場合: y = glm(Outcome ~ Age + B + C, family=binomial(link="logit")) 私は、見てきましたx、y、summary(x)とsummary(y)。 x$coefficients価値はありますか?
40 r  logistic  odds-ratio 

2
ロジスティック回帰検出力解析のシミュレーション-設計実験
この質問は、ロジスティック回帰とSASを使用した電力分析に関して私が尋ねた質問に関する@Greg Snowの回答に対応していますProc GLMPOWER。 実験を計画しており、要因ロジスティック回帰で結果を分析する場合、シミュレーション(およびここ)を使用して電力分析を実行するにはどうすればよいですか? 以下に2つの変数がある簡単な例を示します。最初の変数は3つの可能な値{0.03、0.06、0.09}を取り、2番目はダミーのインジケーター{0,1}です。それぞれについて、各組み合わせの応答率を推定します(レスポンダーの数/マーケティングされる人々の数)。さらに、因子の最初の組み合わせは他の因子の3倍(同等と見なすことができます)にしたいと考えています。これは、この最初の組み合わせが試行された真のバージョンだからです。これは、リンクされた質問で言及されたSASコースで与えられたようなセットアップです。 結果の分析に使用されるモデルは、主な効果と相互作用を伴うロジスティック回帰です(応答は0または1です)。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) このモデルで使用するデータセットをシミュレートして電力解析を実行するにはどうすればよいですか? 私はSASを介してこれを実行するとProc GLMPOWER(使用STDDEV =0.05486016 に対応するsqrt(p(1-p))pが示す応答率の加重平均です)。 data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …

4
Rの「。」(ドット)の意味は何ですか?
「R in a Nutshell」という本を読んでいます。そして、「。」の部分をスキップしたようです。「sample.formula」のように説明されました。 > sample.formula <- as.formula(y~x1+x2) サンプルは、他の言語のようにフィールド式を持つオブジェクトですか?もしそうなら、どのようにしてこのオブジェクトが持っている他のフィールド/機能を見つけることができますか?(型宣言) 編集:私はちょうど「。」の別の紛らわしい使い方を見つけました: > svm(formula = is_spam~., data = spambase.training) (〜。、の間のドット)
39 r 

3
Rオブジェクトのモード、クラス、およびタイプ
Rオブジェクトのモード、クラス、タイプの違いは何ですか?Rオブジェクトのタイプは、typeof()関数、モード(mode())、およびクラス(class())によって取得できます。 私が見逃した他の同様の機能と概念もありますか? よろしくお願いします!
39 r 

3
Clojure対R:データ分析の長所と短所
近い将来、Rを学習する計画がありました。Clojureについて知った別の質問を読んで。今、私は何をすべきかわかりません。 私にとってのRの大きな利点は、私の監督者の1人を含めて、経済学の一部の人がそれを使用していることです(ただし、他の人はRに近づかないでください!)。Clojureの利点の 1つは、Lispベースであり、Emacsの学習を開始し、独自のカスタマイズを作成することに熱心であるためです(そうです、ClojureとElispはLispの異なる方言ですが、 Lispと、したがって私が想像するようなものの両方)。 私はこれが非常に個人的なものであると知っているので、どちらが良いかを尋ねることはできませんが、誰かがClojure x Rの利点(または利点)を、特に実用的な面で私に与えることができますか?たとえば、学習しやすいもの、柔軟性の高いもの、強力なもの、ライブラリ、サポート、ユーザーなどが多いものはどれでしょうか? 私の意図した使用:私の推定の大部分はMatlabを使用して行う必要があるため、統計分析の観点で深すぎるものを探しているのではなく、初期データの操作と視覚化、要約統計、グラフ作成をExcelに置き換えるソフトウェアを探しています。しかし、いくつかの基本的な統計分析または私の推定での最初の試みも。
39 r 

8
Rのグラフィカルデータの概要(概要)関数
Rパッケージでこのような関数に出くわしたことは確かですが、大規模なGooglingを行った後はどこにも見つからないようです。私が考えている機能は、それに与えられた変数のグラフィカルな要約を生成し、いくつかのグラフ(ヒストグラムとおそらくボックスとウィスカープロット)と平均、SDなどの詳細を示すテキストで出力を生成します この関数はベースRに含まれていなかったと確信していますが、使用したパッケージが見つからないようです。 誰もがこのような関数を知っていますか?もしそうなら、どのパッケージに含まれていますか?

4
RでStataの「堅牢な」オプションを複製する
robustR のStataオプションの結果を複製しようとしています。MASSパッケージrlmのコマンドlmrobとパッケージ「robustbase」のコマンドを使用しました。どちらの場合も、結果はStataの「堅牢な」オプションとはまったく異なります。誰でもこの文脈で何かを提案できますか? Stataで堅牢なオプションを実行したときに得られた結果は次のとおりです。 . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. Interval] …

1
Rのランク-降順[終了]
場合によっては、大きい値のランクが1であるデータをランク付けしようとしています。Rには比較的慣れていませんが、ランク関数でこの設定を調整する方法がわかりません。 x <- c(23,45,12,67,34,89) rank(x) 生成: [1] 2 4 1 5 3 6 欲しい時は: [1] 5 3 6 2 4 1 これは非常に基本的なことだと思いますが、あなたが提供できる助けは大歓迎です。
39 r 

4
Rでプロットする場合、ggplot2またはggvisを学習する必要がありますか?
Rでプロットする場合、ggplot2またはggvisを学習する必要がありますか?どちらかが優れているのであれば、必ずしも両方を学びたいとは思わない。Rコミュニティが機能が重複する新しいパッケージを作成し続けるのはなぜですか?紹介ブログ記事は ggvisは、洗練されたプロットパッケージggplot2がすでに存在していることを考えると作成された理由の単語を言及していません。

7
Rデータセット(.rdaファイル)を表示するのに適したブラウザー/ビューアーはありますか
.rdaファイル(Rデータセット)を参照したい。View(datasetname)コマンドについて知っています。Mac用のデフォルトのR.appには、データ用の優れたブラウザーがありません(X11でウィンドウを開きます)。Viewコマンドで開くRStudioデータブラウザーが好きです。ただし、1000行のみが表示され、残りは省略されます。(更新:RStudioビューアーにすべての行が表示されるようになりました)データセット内のすべての行を表示し、好きな/使用する優れたブラウザーはありますか。
38 r 

5
Rの時系列「クラスタリング」
時系列データのセットがあります。各シリーズは同じ期間をカバーしますが、各時系列の実際の日付がすべて正確に「揃っている」わけではありません。 つまり、時系列が2Dマトリックスに読み込まれる場合、次のようになります。 date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc 時系列{T1、T2、... TN}を「家族」に分離するRスクリプトを記述します。ここで、家族とは、「共感して移動する傾向がある」一連のシリーズとして定義されます。 「クラスタリング」の部分では、一種の距離測定を選択/定義する必要があります。私は時系列を扱っているため、これをどのように行えばよいのかよくわかりません。1つの間隔で同情的に移動する可能性のある一連のシリーズは、後続の間隔ではそうなりません。 ここにいるよりもはるかに経験豊富で賢い人がいると確信しているので、距離測定に使用するアルゴリズム/ヒューリスティックに関する提案、アイデア、および時系列のクラスタリングでそれを使用する方法に関するアイデアに感謝します。 私の推測では、これを行うための確固たる統計的方法は確立されていないので、統計学者のように考えて、人々がこの問題にどのようにアプローチ/解決するのか非常に興味があります。

9
ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか?
YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(kkkが指定されている)などのクエリにすばやく応答することに興味があります。 現在、私はそのような質問に答えるためにランダムシミュレーションを使用しています。p_iに従って各X_iをランダムに描画XiXiX_iし、すべてのX_i値を合計してY 'を取得します。このプロセスを数千回繰り返し、時間の小数部分\ Pr(Y '\ leq k)を返します。pipip_iXiXiX_iY′Y′Y'Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k) 明らかに、これは完全に正確ではありません(ただし、シミュレーションの数が増えると精度は大幅に向上します)。また、使用シミュレーションを回避するのに十分な分布に関するデータがあるようです。正確な確率\ Pr(Y \ leq k)を取得する合理的な方法を考えることができますPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)か? PS PerlとRを使用しています。 編集 回答に続いて、私はいくつかの説明が必要かもしれないと思った。問題の設定について簡単に説明します。円周cとnそれにマッピングされた一連の範囲を持つ円形ゲノムが与えられます。たとえば、c=3*10^9およびranges={[100,200],[50,1000],[3*10^9-1,1000],...}。すべての範囲が閉じていることに注意してください(両端が含まれます)。また、整数(全体の単位)のみを扱うことに注意してください。 特定のnマッピング範囲で覆われている円上の領域を探しています。したがってx、円上の与えられた長さの範囲がカバーされているかどうかをテストするために、n範囲がランダムにマッピングされるという仮説をテストします。マッピングされた長さの範囲が指定された長さの範囲をq&gt;x完全にカバーする確率xは(q-x)/cです。この確率cは、大きい場合や小さい場合に非常に小さくなりますq。私が興味を持っているのは、nをカバーする範囲の数(範囲外)xです。これがY形成される方法です。 帰無仮説と片側の代替(アンダーカバー)をテストします。また、複数の仮説(異なるx長さ)をテストしていることにも注意してください。これを必ず修正してください。

1
手動で計算された
これはかなり具体的なR質問であることはわかっていますが、説明する割合の分散について考えているかもしれません。について間違っている。ここに行きます。R2R2R^2 私は使用しようとしています RパッケージますrandomForest。トレーニングデータとテストデータがあります。ランダムフォレストモデルを当てはめると、このrandomForest関数を使用して、テストする新しいテストデータを入力できます。次に、この新しいデータで説明された分散の割合を示します。これを見ると、1つの数字が得られます。 predict()関数を使用して、トレーニングデータからのモデルフィットに基づいてテストデータの結果値を予測し、これらの値とテストデータの実際の結果値の異なる数値が得られます。これらの値は一致しません。 R問題を示すためのコードを次に示します。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index &lt;- 1:nrow(iris) trainindex &lt;- sample(index, trunc(length(index)/2)) trainset &lt;- iris[trainindex, ] testset &lt;- iris[-trainindex, ] # fit a model to the training set …

2
二項回帰のRの出力の解釈
私は二項データテストでこれについては非常に新しいですが、1つを行う必要があり、結果をどのように解釈するかがわかりません。応答変数であるy変数は二項であり、説明因子は連続的です。これは、結果を要約するときに得たものです: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -0.3877697 0.0282178 -13.742 &lt; 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …

2
Rのlmer()混合効果モデルの予測間隔
lmer()モデルからの予測の周りの予測区間を取得したい。これに関する議論を見つけました。 http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq しかし、それらはランダム効果の不確実性を考慮していないようです。 以下に具体例を示します。私は金の魚をレースしています。過去100レースのデータがあります。RE推定値とFE推定値の不確実性を考慮して、101番目を予測したい。魚のランダムインターセプト(10種類の魚があります)と、重量の固定効果(重い魚が少ないほど速い)を含めています。 library("lme4") fish &lt;- as.factor(rep(letters[1:10], each=100)) race &lt;- as.factor(rep(900:999, 10)) oz &lt;- round(1 + rnorm(1000)/10, 3) sec &lt;- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat &lt;- data.frame(fishID = fish, raceID = race, fishWt = oz, time = sec) head(fishDat) plot(fishDat$fishID, fishDat$time) lme1 &lt;- lmer(time …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.