タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
ランダムフォレストがランダムフォレストを生成する方法
私はランダムフォレストの専門家ではありませんが、ランダムフォレストの重要な問題は(ランダム)ツリーの生成であることを明確に理解しています。木がどのように生成されるのか説明してもらえますか?(つまり、ツリー生成に使用される分布は何ですか?) 前もって感謝します !

5
被験者内テストのポストホック?
被験者内テストのポストホックを実施するための好ましい方法は何ですか?テューキーのHSDが採用されている出版物を見たことがありますが、ケッペルとマクスウェルとデラニーのレビューは、これらの設計の球形性の違反がエラー用語を不正確にし、このアプローチに問題があることを示唆しています。Maxwell&Delaneyは彼らの本の問題へのアプローチを提供しますが、どの統計パッケージでもそのようにそれを見たことがありません。彼らが提供するアプローチは適切ですか?複数のペアのサンプルt検定でのBonferroniまたはSidakの補正は妥当ですか?受け入れられる答えはezANOVA、ezパッケージ内の関数によって生成される単純、多方向、および混合設計で事後的に実行できる一般的なRコードと、レビューアーに合格する可能性が高い適切な引用を提供します。

2
glmnetのキャレットトレーニング関数は、アルファとラムダの両方を相互検証しますか?
Rのいcaretの両方の上にパッケージクロス検証をalphaしてlambdaためglmnetのモデル?このコードを実行すると、 eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) トレーニングログは次のようになります。 Fold10.Rep3: alpha=1.0, lambda=NA どういうlambda=NA意味ですか?

4
正規分布の混合からランダム変数を生成する
混合分布、特にの正規分布の混合からサンプリングするにはどうすればよいRですか?たとえば、次のものからサンプリングしたい場合: 0.3× N(0 、1 )+0.5× N(10 、1 )+0.2× N(3 、.1 )0.3×N(0、1)+0.5×N(10、1)+0.2×N(3、.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) どうすればそれができますか?

3
GLMで傍受用語​​を解釈する方法は?
私はRを使用しており、Binomialリンク付きのGLMでデータを分析しています。 出力テーブルのインターセプトの意味を知りたいです。私のモデルの1つの切片は大きく異なりますが、変数は違いません。これは何を意味するのでしょうか? インターセプトとは何ですか。私は自分自身を混乱させているだけでなく、インターネットを検索したかどうかはわかりません。ただこれだけで、それに気づいてください...またはしないでください。 助けてください、とてもイライラした学生 glm(formula = attacked_excluding_app ~ treatment, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.3548 0.3593 0.3593 0.3593 0.3593 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708 1.033 2.622 0.00874 ** treatmentshiny_non-shiny 0.000 1.461 0.000 1.00000 (Dispersion parameter for binomial family …

5
なぜ低ランクの近似に悩まされるのですか?
n行m列の行列がある場合、SVDまたは他の方法を使用して、指定された行列の低ランク近似を計算できます。 ただし、低ランクの近似には、n行とm列が引き続きあります。同じ数の機能が残っている場合、低ランクの近似は機械学習と自然言語処理にどのように役立ちますか?

5
余弦の非類似度行列を計算するR関数はありますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 去年閉鎖されました。 コサイン距離に基づく行クラスタリングを使用してヒートマップを作成したいと思います。私はRを使用heatmap.2()して図を作成しています。私はそこだと見ることができdist、パラメータは、heatmap.2私はコサイン非類似度行列を生成する機能を見つけることができません。組み込みのdist機能は、コサイン距離をサポートしていない、私はとも呼ばれるパッケージたarulesとdissimilarity()機能をそれだけで、バイナリデータで動作します。

2
線形混合効果モデリングの特殊なケースとしてのペアt検定
対応のあるt検定は、一方向反復測定(または被験者内)ANOVAおよび線形混合効果モデルの特殊なケースであり、lme()関数でRのnlmeパッケージで実証できることがわかっています。以下に示すように。 #response data from 10 subjects under two conditions x1<-rnorm(10) x2<-1+rnorm(10) # Now create a dataframe for lme myDat <- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) <- c("y", "x", "subj") 次のペアのt検定を実行すると: t.test(x1, x2, paired = TRUE) 私はこの結果を得ました(ランダムジェネレータのために異なる結果が得られます): t = -2.3056, df = 9, p-value = 0.04657 …

2
ロジスティック回帰からの予測確率の信頼区間のプロット
ロジスティック回帰があり、このpredict()関数を使用して、推定に基づいて確率曲線を作成しました。 ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") これはすばらしいことですが、確率の信頼区間をプロットすることに興味があります。試しましplot.ci()たが、運がありませんでした。できればcarパッケージまたはベースRを使用して、これを実現するいくつかの方法を教えてください。

1
Rでqqline()によって生成された行の使用は何ですか?
qqnorm()R関数は、通常のQQプロットを生成し、qqline()第一及び第三の四分位数を通る線を付加します。この線の起源は何ですか?正常性を確認することは役に立ちますか?これは古典的な線ではありません(対角線おそらく線形スケーリング後)。y= xy=xy=x 以下に例を示します。最初私は理論的な分布関数と経験分布関数を比較: 今は、ラインとQQプロットプロットYが= μ + σ X。このグラフは、前のグラフの(非線形)スケーリングにほぼ対応しています。 ただし、R qqlineを使用したqqプロット は次のとおりです。この最後のグラフは、最初のグラフのように出発を示していません。N(μ^、σ^2)N(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)y= μ^+ σ^バツy=μ^+σ^xy=\hat\mu + \hat\sigma x

1
2つのサンプルが同じ分布から抽出された場合のノンパラメトリック検定
サンプルまたは母集団の分布についての仮定を一切行うことなく、同じ母集団から2つのサンプルが抽出されるという仮説をテストしたいと思います。どうすればいいですか? ウィキペディアからの私の印象は、Mann Whitney Uテストが適切であるべきだということですが、実際には私にはうまくいかないようです。 具体的には、2つのサンプル(a、b)が大きく(n = 10000)、非正常(バイモーダル)の2つの母集団から抽出されたデータセットを作成しました。私はこれらのサンプルが同じ母集団からのものではないことを認識するテストを探しています。 ヒストグラムビュー: Rコード: a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n = c(rnorm(1e4, mean=50, sd=3), rnorm(1e4, mean=100, sd=3))) ggplot(rbind(a,b), aes(x=n, fill=group)) + geom_histogram(position='dodge', bins=100) サンプルが同じ母集団からのものであるという帰無仮説を却下しなかったマン・ホイットニー検定は驚くほど(?)です。 > wilcox.test(n ~ group, rbind(a,b)) Wilcoxon rank sum …

3
まれなイベントロジスティック回帰バイアス:最小限の例で過小評価されたpをシミュレートする方法は?
CrossValidatedには、King and Zeng(2001)によるまれなイベントバイアス修正をいつ、どのように適用するかに関するいくつかの質問があります。私は別の何かを探しています。バイアスが存在するという最小限のシミュレーションベースのデモンストレーションです。 特に、王とZenの状態 「...まれなイベントデータでは、確率のバイアスはサンプルサイズが数千単位で実質的に意味があり、予測可能な方向にあります。推定イベント確率は小さすぎます。」 Rのこのようなバイアスをシミュレートする私の試みは次のとおりです。 # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not …

3
ジュリア:過去の状況を把握する
この投稿は、急速に変化するイベントに関連しています。 さまざまな種類の統計作業のためのR / Pythonの代替としてのジュリアについて非常に良い議論があった2012年の質問に出会いました。 これは、ジュリアの約束に関する2012年の最初の質問です。 残念ながら、ジュリアは当時非常に新しく、統計作業に必要なツールキットはやや原始的でした。バグは解決されていました。ディストリビューションのインストールは困難でした。など。 誰かがその質問に対して非常に適切なコメントを持っています: これは、この質問に後から答えが出る可能性があるのは5年後だということです。現時点では、ジュリアには日常のユーザーのためにRと競合する可能性のある統計プログラミングシステムの次の重要な側面が欠けています。 それは2012年でした。2015年になり、3年が経ちましたが、ジュリアはどのように考えたのでしょうか。 言語自体およびJuliaエコシステム全体に関する豊富な経験がありますか?知りたいです。 具体的には: 統計ツールの新しいユーザーに、Rを介してJuliaを学習することを勧めますか? どのような統計のユースケースでジュリアを使用するように誰かにアドバイスしますか? 特定のタスクでRが遅い場合、ジュリアまたはPythonに切り替えるのは理にかなっていますか? 注:2015年6月14日に最初に投稿されました。
19 r  python  computing  julia 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.