タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

4
Rでのランダムフォレストコンピューティング時間
R のパーティパッケージを10,000行と34の機能で使用していますが、一部の要因機能には300以上のレベルがあります。計算時間が長すぎます。(これまでに3時間かかりましたが、まだ終了していません。) ランダムフォレストの計算時間に大きな影響を与える要素を知りたいです。レベルが多すぎる要因がありますか?RF計算時間を改善するための最適化された方法はありますか?
49 r  random-forest 

5
NaNとNAの違いは何ですか?
Rのような一部の言語にNAとNaNの両方がある理由を知りたいです。違いは何ですか、それとも等しく同じですか?NAは本当に必要ですか?
48 r 

1
予測が目標である場合、標準化/正規化をトレーニングおよびテストセットに適用する方法は?
すべてのデータまたはフォールド(CVが適用されている場合)を同時に変換しますか?例えば (allData - mean(allData)) / sd(allData) trainsetとtestsetを別々に変換しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) または、トレインセットを変換し、テストセットで計算を使用しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 3は正しい方法だと思います。3が正しい場合、平均が0でないこと、または範囲が[0;の間にないことを心配する必要があります。1]または[-1; 1]テストセットの(正規化)?

7
経験豊富な開発者向けの統計情報をどこから始めるか
2015年の前半に、機械学習のコースコースを受講しました(Andrew Ng、素晴らしいコースによる)。機械学習の基礎を学びました(線形回帰、ロジスティック回帰、SVM、ニューラルネットワーク...) また、私は10年間開発者でしたので、新しいプログラミング言語を習得しても問題はありません。 最近、機械学習アルゴリズムを実装するためにRの学習を開始しました。 しかし、学習を続けたい場合は統計のより正式な知識が必要であり、現在は非公式の知識が必要であることに気付きましたが、たとえば、いくつかの線形モデルのどれを適切に決定することができなかったのかより良いでしょう(通常、私はR平方を使用する傾向がありますが、明らかにそれはあまり良い考えではありません)。 だから私には統計の基礎を学ぶ必要があることはかなり明白です(私は大学でそれを勉強しましたが、ほとんどのことを忘れました)、どこで学ぶべきか、私は本当に完全に包括的なコースを必要としないことに注意してください1か月以内に十分な知識が得られるので、熱心になり、さらに学ぶことができます:)。 これまでに「涙のない統計」について読んだことがありますか?

5
R-QQPlot:データが正規分布しているかどうかを確認する方法
Shapiro-Wilk正規性テストを行った後、これをプロットしました。テストでは、人口が正規分布している可能性が高いことが示されました。ただし、このプロットでこの「動作」を確認するにはどうすればよいですか? 更新 データの単純なヒストグラム: 更新 Shapiro-Wilkテストは次のように述べています。

4
ロジスティック回帰サブセットの選択方法は?
私はRに二項家族glmを当てはめており、説明変数のグループがあり、最良のものを見つける必要があります(測定値としてのR2乗は問題ありません)。説明変数のランダムな異なる組み合わせをループするスクリプトを記述してから、どれが最高のパフォーマンスを発揮するかを記録する以外には、どうすればいいかわかりません。また、leapsパッケージleapsの関数は、ロジスティック回帰を実行していないようです。 どんな助けや提案も大歓迎です。
47 r  logistic 

5
最初のRパッケージはソースコードをパッケージ化して、独自のパッケージを作成する準備をします
Rパッケージの作成を開始する予定です。 パッケージ構築の慣習を学ぶために、既存のパッケージのソースコードを調べるのは良いことだと思いました。 勉強する良いパッケージの私の基準: 単純な統計的/技術的アイデア:ポイントは、パッケージ構築の仕組みについて学ぶことです。パッケージを理解するために、パッケージの実際のトピックに関するドメイン固有の詳細な詳細な知識は必要ありません。 シンプルで従来型のコーディングスタイル:探しているのはそれ以上ではありHello Worldませんが、それ以上ではありません。特異なトリックとハックは、最初にRパッケージを学習するときに気が散ることになります。 良いコーディングスタイル:コードはよく書かれています。一般的に、適切なコーディングの一般的な理解と、Rでのコーディングの規則の認識の両方を明らかにします。 質問: どのパッケージが勉強に適していますか? 提案されたパッケージソースコードは、上記の基準または関連する可能性のある他の基準と比較して検討するのに適しているのはなぜですか? 更新(2010年12月13日) Dirkのコメントに続いて、多くのパッケージが最初に勉強するのが良いことは間違いないことを明確にしたかった。また、パッケージがさまざまなもの(ビネット、S3クラス、S4クラス、ユニットテスト、Roxygenなど)のモデルを提供することに同意します。それにも関わらず、良いパッケージから始める具体的な提案と、それらが良いパッケージになる理由を読むのは面白いでしょう。 また、上記の質問を更新して、「パッケージ」ではなく「パッケージ」を参照するようにしました。
47 r 

3
曲線形状に基づいて時系列クラスタリングを行うことは可能ですか?
一連のアウトレットの販売データがあり、時間の経過に伴うカーブの形状に基づいてそれらを分類したいと考えています。データはおおよそ次のように見えます(ただし、明らかにランダムではなく、データが欠落しています)。 n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, new.df) } …

5
Rのロジスティック回帰から擬似
Rのロジスティック回帰に関する Christopher Manningの記事は、次のようにRのロジスティック回帰を示しています。 ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) いくつかの出力: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 -1.34325 0.04954 1.01488 6.40094 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.31827 …

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

2
ロジスティック回帰の人工データをシミュレートする方法は?
私はロジスティック回帰の理解に何か不足していることを知っており、どんな助けも本当に感謝しています。 私が理解している限り、ロジスティック回帰は、入力が与えられた場合の「1」の結果の確率は、逆ロジスティック関数を通過した入力の線形結合であると仮定しています。これは、次のRコードに例示されています。 #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take as '1' if probability > 0.5 #now …

5
Rをオンラインで使用する-インストールせずに[終了]
RをインストールせずにWebインターフェースでRを使用する可能性はありますか? 実行したい小さなスクリプトは1つしかありませんが、インストール手順を長くせずに試してみたいだけです。 ありがとうございました。
45 r 

3
逸脱とは何ですか?(特にCART / rpartで)
「逸脱」とは何ですか、どのように計算され、統計のさまざまな分野でどのように使用されますか? 特に、CARTでの使用(およびRのrpartでの実装)に個人的に興味があります。 wikiの記事にはやや欠けているようで、あなたの洞察が最も歓迎されるので、私はこれを求めています。
45 r  cart  rpart  deviance 


1
タイプI、タイプII、およびタイプIII ANOVAおよびMANOVAの解釈方法
私の主な質問は、タイプI(シーケンシャル)分散分析を実行するときに出力(係数、F、P)を解釈する方法です。 私の特定の研究問題はもう少し複雑なので、私の例をいくつかに分けます。まず、植物の成長(Y1)に対するクモの密度(X1)の影響に興味があり、囲いに苗木を植え、クモの密度を操作した場合、単純なANOVAまたは線形回帰でデータを分析できます。その後、ANOVAにタイプI、II、またはIIIの二乗和(SS)を使用したかどうかは関係ありません。私の場合、5つの密度レベルの複製が4つあるため、密度を因子または連続変数として使用できます。この場合、私はそれを連続的な独立(予測)変数として解釈することを好みます。RIでは、次を実行できます。 lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) anova関数を実行すると、後で比較できることを願っていますので、ここで奇妙な点を無視してください。出力は次のとおりです。 Response: y1 Df Sum Sq Mean Sq F value Pr(>F) density 1 0.48357 0.48357 3.4279 0.08058 . Residuals 18 2.53920 0.14107 さて、私がコントロールできなかった土壌中の無機窒素の開始レベルも、植物の成長に大きな影響を与えたのではないかと疑っているとしましょう。私はこの効果に特に興味はありませんが、それが引き起こす変動を潜在的に説明したいと思います。実際、私の主な関心はクモの密度の効果です(仮説:クモの密度の増加は植物の成長の増加を引き起こします-おそらく草食性昆虫の減少によるものですが、メカニズムではなく効果のみをテストしています)。無機Nの効果を分析に追加できます。 私の質問のために、相互作用密度* inorganicNをテストし、それが有意ではないふりをして、分析からそれを削除し、次の主な効果を実行します: > lm2 <- lm(y1 ~ density + inorganicN, data = Ena) > anova(lm2) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.