タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

6
Rのどの置換テストの実装をt検定(ペアおよび非ペア)の代わりに使用しますか?
t検定を使用して分析した実験のデータがあります。従属変数は間隔スケーリングされ、データはペア化されていない(つまり、2つのグループ)か、ペアリングされています(つまり、被験者内)。例(被験者内): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, 0, 100, 49.5) ただし、データは正常ではないため、あるレビューアがt検定以外の何かを使用するように依頼しました。ただし、簡単にわかるように、データは正規分布しているだけでなく、条件間で分布が等しくありません。 したがって、通常のノンパラメトリック検定であるMann-Whitney-U-Test(unpaired)およびWilcoxon Test(paired)は、条件間で均等に分布する必要があるため使用できません。したがって、いくつかのリサンプリングまたは置換テストが最適であると判断しました。 今、私はt検定の置換ベースの同等物のR実装、またはデータをどうするかについての他のアドバイスを探しています。 私にこれを行うことができるいくつかのRパッケージ(コイン、パーマ、exactRankTestなど)があることは知っていますが、どれを選ぶべきかわかりません。したがって、これらのテストを使用した経験のある人がキックスタートを提供できれば、それは非常にクールです。 …

8
特定の平均値や標準偏差など、特定の制約を満たすデータをシミュレートする方法は?
この質問は、メタ分析に関する私の質問に基づいています。しかし、既存の公開されたデータセットを正確に反映するデータセットを作成したいコンテキストを教えるのにも役立つと思います。 特定の分布からランダムデータを生成する方法を知っています。たとえば、次のような研究の結果について読んだ場合: 平均102 5.2の標準偏差、および サンプルサイズは72です。 rnormR を使用して同様のデータを生成できます。たとえば、 set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) もちろん、平均とSDはそれぞれ102と5.2に正確には等しくありません。 round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 一般的に、一連の制約を満たすデータをシミュレートする方法に興味があります。上記の場合、制約はサンプルサイズ、平均、標準偏差です。他の場合には、追加の制約があるかもしれません。例えば、 データまたは基になる変数の最小値と最大値がわかっている場合があります。 変数は整数値のみ、または非負の値のみをとることがわかっている場合があります。 データには、相互相関が既知の複数の変数が含まれる場合があります。 ご質問 一般に、一連の制約を正確に満たすデータをどのようにシミュレートできますか? これについて書かれた記事はありますか?Rにこれを行うプログラムはありますか? 例のために、特定の平均値とsdを持つように変数をどのようにシミュレートできますか?

4
ログ変換された応答変数のLMとGLMの選択
一般化線形モデル(GLM)対線形モデル(LM)を使用する背後にある哲学を理解しようとしています。以下にサンプルデータセットを作成しました。 log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon この例には、yの大きさの関数としての誤差がないため、対数変換されたyの線形モデルが最適であると想定します。以下の例では、これは実際にそうです(私は思う)-ログ変換されたデータのLMのAICが最も低いからです。対数リンク関数を使用したガンマ分布GLMのAICは、より低い二乗和(SS)を持ちますが、自由度を追加するとAICがわずかに高くなります。ガウス分布のAICが非常に高いことに驚かされました(SSはモデルの中で最低ですが)。εε\varepsilonyyy GLMモデルにアプローチするタイミングについてアドバイスをもらいたいと思います。つまり、LMモデルの近似残差で、別の分布がより適切であることを確認する必要があるのでしょうか。また、適切なディストリビューションファミリを選択するには、どのように進める必要がありますか。 あなたの助けに前もって感謝します。 [編集]:対数変換線形モデルのSSが対数リンク機能を備えたGLMモデルに匹敵するように、要約統計を調整しました。統計のグラフが表示されます。 例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- "LM" assign(mod.name, lm(y …

3
lmerでのランダム効果の指定方法に関する質問
最近、単語が異なるコンテキストで表示されたときのERP(EEG)を測定することにより、新しい単語の意味が繰り返しの露出(練習:1日目から10日目)で獲得される方法を測定しました。また、コンテキストのプロパティも制御しました。たとえば、新しい単語の意味の発見に対する有用性(高対低)。特に練習の効果(日数)に興味があります。個々のERP記録はノイズが多いため、ERPコンポーネントの値は、特定の条件の試行を平均することによって取得されます。このlmer関数では、次の式を適用しました。 lmer(ERPindex ~ practice*context + (1|participants), data=base) そして lmer(ERPindex ~ practice*context + (1+practice|participants), data=base) また、私は次のランダム効果と同等のものを文献で見ました。 lmer(ERPindex ~ practice*context + (practice|participants) + (practice|participants:context), data=base) フォームのランダム係数を使用して何が達成されparticipants:contextますか?行列代数の大まかな知識を持っている人に、線形混合モデルでランダムファクターが何をするか、そしてそれらをどのように選択するかを正確に理解させる良いソースはありますか?

6
Rのロジスティック回帰の代替
ロジスティック回帰と同じタスクを実行する多くのアルゴリズムが欲しいです。それは、説明変数(X)を使用してバイナリ応答(Y)に予測を与えることができるアルゴリズム/モデルです。 アルゴリズムに名前を付けた後、Rでそれを実装する方法も示すことができれば嬉しいです。他のモデルで更新できるコードは次のとおりです。 set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')

9
データサイエンスでRとPythonはどのように相互補完し合うのですか
多くのチュートリアルまたはマニュアルでは、物語は、Rとpythonが分析プロセスの補完的なコンポーネントとして共存していることを暗示しているようです。しかし、私の訓練を受けていない目には、両方の言語が同じことをしているようです。 ですから、私の質問は、2つの言語に本当に特化したニッチがあるのか​​、それともどちらを使用するのかが個人的な好みなのかということです。
54 r  python  software 

3
特徴選択に主成分分析(PCA)を使用する
私は機能選択が初めてであり、PCAを使用して機能選択を実行する方法を知りたいと思っていました。PCAは、情報価値のない入力変数を除外するために使用できる各入力変数の相対スコアを計算しますか?基本的に、分散または含まれる情報の量によって、データの元の機能を順序付けできるようにしたいと考えています。


3
Rのパッケージとして利用可能なデータAPI /フィード
編集:Web Technologies and Services CRAN タスクビューには、Rで利用可能なデータソースとAPIのより包括的なリストが含まれています。タスクビューにパッケージを追加する場合は、githubでプルリクエストを送信できます。 すでにRにフックされているか、セットアップが簡単なさまざまなデータフィードのリストを作成しています。これが私のパッケージの最初のリストです。他に何が欠けているのだろうと思っていました。 このリストを「リアルタイム」または「リアルタイムに近い」データフィード/ APIに制限しようとしています。この場合、基になるデータはダウンロードごとに変わる可能性があります。静的データセットのリストはたくさんあり、ダウンロードは1回だけで済みます。 現在、このリストは財務/時系列データに偏っているので、他のドメインに拡張するためにいくつかの助けを借りることができます。 無料データ: データソース-パッケージ グーグル・ファイナンス過去のデータ - quantmod Googleの財政のバランスシート - quantmod ヤフー・ファイナンスの過去データ - quantmod ヤフー・ファイナンスの過去データ- tseries ヤフー・ファイナンス現在のオプションのチェーン - quantmod ヤフー・ファイナンスの歴史的アナリストの見積もり - fImport ヤフー・ファイナンス、現在の主要な統計情報 - fImport -壊れているようです OANDAの歴史的な為替レート/金属価格 quantmod - FRED歴史的なマクロ経済指標 - quantmod 世界銀行歴史的なマクロ経済指標 - WDI Googleトレンド歴史的な検索ボリュームデータ - RGoogleTrends Googleドキュメント- RGoogleDocs Googleのストレージ- RGoogleStorage のTwitter …
53 r  references  dataset 

6
ランダムフォレストモデルの予測には予測間​​隔がありますか?
randomForestモデルを実行すると、モデルに基づいて予測を行うことができます。各予測の予測間隔を取得する方法はありますか。その結果、モデルがその答えをどの程度「保証」しているのかがわかります。これが可能である場合、単にモデル全体の従属変数の変動性に基づいているのでしょうか、それとも特定の予測に従ってた特定の決定木に応じて、より広い間隔とより狭い間隔を持っていますか?

6
RのROC曲線を使用して最適なカットオフポイントとその信頼区間を決定する方法は?
正常細胞と腫瘍細胞を区別するために使用できるテストのデータがあります。ROC曲線によると、この目的には適しています(曲線下面積は0.9): 私の質問は: このテストのカットオフポイントと、読み取り値があいまいであると判断される信頼区間を決定する方法 これを視覚化する最良の方法は何ですか(を使用ggplot2)? グラフはROCRとggplot2パッケージを使用してレンダリングされます: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p + geom_text(aes(x=1, y= 0, hjust=1, …

6
Rを使用して統計の学習を同時に開始するのに推奨されるのはどの本ですか?
Rを使用して統計を学習するための書籍 まさに私が探している本は何ですか。 私が探しているのは、Rを使用して統計を教え、実践的な経験を提供する本です。私はアマゾンでそれをしようとする多くの本を見ましたが、Rではそうではありません。例はMinitabとSASです。 R BookとStatistics Computingはオプションですか?- まだ回答されていません。 R BookとStatistical Computing:S-Plusを使用したデータ分析入門は実行可能ですが、読者の意見は参考になり歓迎します。 この本は統計コースとどのように関係していますか? 私が探していたものをさらに正確にするには、大学の数学科からの統計に関する結果を学習している次の2つのコースを検討してください。 中間統計と確率と統計、つまり、中レベルに進む通常の統計コースを本で探していますが、ボードとペーパーだけではなく、代わりにRを学習して使用しています。それはまた、私が最初から統計を学びたいと思う本を探していることを意味します。 この本も研究者向けです。 私はソフトウェアエンジニアの研究者でもありますが、山のようなデータに遭遇し、他の多くの分野にほとんど当てはまる自動化コードを書き続けるための統計を学びたいという現状を推測しています。 つまり、すべての単一の曲線のすべての単一のプロパティのすべての詳細を学習することには興味がありませんが、自分の研究領域のデータの意味を理解することにもっと関心があります。 。 最後の動機として、統計の推測や制約に違反しているかどうかの判読可能な証拠がない間、統計的推論に基づいて結果を主張するさまざまな種類のコミュニティで科学論文を読んでいることに気づきました。 統計についてあまり詳しくないAR本は、このプラクティスをフォローアップしていないことを保証するものではありません。そのため、概要図をいじるのではなく、Rを使用する統計コースに似た本を探すことにしました。 相互検証の関連する質問。 コンピュータサイエンスに適用される計算統計の概要を提供している書籍は何ですか?-これはRを使用して統計を学習するためのものですが、質問が概要を探すこととは異なります。 オープンソースの統計書は、オンラインで利用可能なオープンソース(オープンブック)のリストを提供します。 この質問に対する回答とフィードバック。 ジュリー 提案された本は、私がすでに出くわした数少ないものでしたが、残念なことに私に合わない例です。 Rを使用した入門統計、入門統計にRを使用、統計:Rを使用した入門は、すでにAmazonで調べた本のいくつかですが、統計の概要について、または以前の統計知識が必要な仮定を立てています。概要図の問題は、ほとんどの場合、仮定や制約に注意を喚起せず、情報を理解するのに十分な説明を提供することです。 この必要性にも適合する本が存在しないか、RブックまたはS-Plusを使用したデータ分析入門がこれに当てはまると思う場合は、このタイプの回答も歓迎します。 @クリストファー・アデン Rを使用した確率と統計の概要は、最も近いもののようですが、私が探していたものにまだ一般的です。 私が期待していたのは、David S. Mooreのような統計の基本です。 すべての統計学の主題を網羅しています。 miniTabと他の2つのツールを使用して、説明した方法を実践的に学習します。 前提と制約を非常に強調しています。これは、詳細な統計コースを受講しておらず、統計を使用したい研究者にとって非常に重要です。概要の本ではほとんどカバーしません。これは研究者にとって危険です。 本の目次はこちらでご覧いただけます。統計に焦点が当てられており、ツールの使用法が理解を深め、より簡単な方法で学習した後、ツールを使用して統計を実行する方法を学生に理解させることです。ツールについてではなく、統計についてです! 私はまったく同じことを望んでいますが、Rを使用しています。 グレゴリー・デミン それは教育学の例としてRを使用し、統計を学びたいと思っていることを前提としており、何よりもオープンソースです。残念ながら、ANOVAやANCOVA、またはより高度な科目は対象外です。 @ピーター・エリス この質問で何が求められているかをカバーする教科書への良い提案。 質問に答える質問者の意見の本。 @ピーター・エリスと@グレゴリー・デミン。 AmazonのR Booksのコレクション さまざまな学生のバックグラウンド向けのR本に関するAmazonの議論は、ここにあります。 Rを使用して統計を教えるビデオ講義 2007年のGoogle Tech Talksもこの質問の動機となり、統計ではなくデータマイニングについて詳しく説明していますが、ここでは …
50 r  references 

1
ロジスティック回帰モデルの近似から予測値(Y = 1または0)を取得する
クラスのオブジェクトglm(ロジスティック回帰モデルに対応)がありpredict.glm、引数type="response"を使用して与えられた予測確率をバイナリ応答、つまりまたはY = 0に変換したいとします。Rでこれを行う最も速く、最も標準的な方法は何ですか?Y= 1Y=1Y=1Y= 0Y=0Y=0 、再び、私の知る一方でpredict.glm、私は場所を正確にカットオフ値を知らない住んでいる-と私は、これはここに私のメインのつまずきであると思います。P(Y私= 1 | バツ^私)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})

1
ブートストラップとジャックナイフ
ブートストラップ法とジャックナイフ法の両方を使用して、推定値の偏りと標準誤差を推定することができ、両方のリサンプリング法のメカニズムは大きな違いはありません。ただし、ジャックナイフは、研究と実践においてブートストラップほど人気が​​ありません。 ジャックナイフを使用する代わりにブートストラップを使用することの明らかな利点はありますか?

4
t検定でt値からP値を手動で計算する
31個の値を持つサンプルデータセットがあります。Rを使用して両側t検定を実行し、真の平均が10に等しいかどうかをテストしました。 t.test(x=data, mu=10, conf.level=0.95) 出力: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 今、私は同じことを手動でしようとしています: t.value = (mean(data) - 10) / (sd(data) / sqrt(length(data))) p.value = dt(t.value, df=length(lengths-1)) この方法を使用して計算されたt値は、t検定R関数の出力と同じです。ただし、p値は3.025803e-12になります。 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.