タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
Rの確率微分方程式の数値ソルバー:ありますか?
Euler-Maruyamaスキーム、Milsteinスキーム(またはその他)を使用する(1)のような非均質非線形拡散からのパスをシミュレートするための、一般的でクリーンで高速な(つまりC ++ルーチンを使用する)Rパッケージを探しています。これは、より大きな推定コードに組み込まれる予定であるため、最適化する価値があります。 dバツt= f(θ 、t 、Xt)dt + g(θ、t 、Xt)dWt、(1)(1)dバツt=f(θ、t、バツt)dt+g(θ、t、バツt)dWt、dX_t = f(\theta, t, X_t)\, dt + g(\theta, t, X_t)\, dW_t, \tag{1} 標準ブラウン運動。 WtWtW_t

1
線形回帰と空間的自己相関
リモートセンシングで取得したいくつかの変数を使用して、特定のエリアのツリーの高さを予測したい。おおよそのバイオマスなどと同様に、まず線形回帰を使用します(最良のアイデアではないことはわかっていますが、これは私のプロジェクトの必須ステップです)。私は空間的自己相関がどれほどひどく影響するか、それが可能な場合にこれを修正する最も簡単な方法は何かを知りたかった。ちなみに私はRですべてをやっています。

3
PCAのコンポーネントは実際に分散の割合を表しますか?合計すると100%を超えることはできますか?
O'Reillyの「Machine Learning For Hackers」は、各主成分が分散の割合を表すと述べています。以下のページの関連部分を引用しました(8章、207ページ)。別の専門家に話すと、彼らはそれがパーセンテージであることに同意しました。 ただし、24個のコンポーネントの合計は133.2095%になります。それはどうしてですか? PCAを使用できると確信しましたが、Rでそれを行うにはどうすればよいですか?繰り返しますが、これはRが輝く場所です。PCA全体を1行のコードで実行できます。princomp関数を使用してPCAを実行します。 pca <- princomp(date.stock.matrix[,2:ncol(date.stock.matrix)]) Rにpcaと入力するだけで、主要なコンポーネントの簡単な要約が表示されます。 Call: princomp(x = date.stock.matrix[, 2:ncol(date.stock.matrix)]) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 29.1001249 20.4403404 12.6726924 11.4636450 8.4963820 8.1969345 5.5438308 Comp.8 Comp.9 Comp.10 Comp.11 Comp.12 Comp.13 Comp.14 5.1300931 4.7786752 4.2575099 3.3050931 2.6197715 2.4986181 2.1746125 Comp.15 Comp.16 Comp.17 Comp.18 Comp.19 …
13 r  pca 

1
Bayesian glmの値の理解を手伝ってください
ここでデータに対してベイジアンロジットを実行しようとしています。Rのパッケージで使用bayesglm()していarmます。コーディングは簡単です。 df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) 次の出力が得られます。 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.10381 0.10240 1.014 0.311 SEXMale 0.02408 0.09363 0.257 0.797 HIGH -0.27503 0.03562 -7.721 1.15e-14 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 …
13 r  bayesian  p-value 

1
Rのwilcox.testとcoin :: wilcox_testの違いは何ですか?
これらの2つの関数はRに存在しますが、それらの違いはわかりません。で呼び出すwilcox.testと、同じp値のみを返すようですcorrect=FALSE、とwilcox_testとの(コインパッケージ内)distribution="aymptotic"。他の値の場合、異なるp値を返します。またwilcox.test、パラメータの設定とは関係なく、データセットに対して常にW = 0を返します。 x = c(1, 1, 1, 3, 3, 3, 3) そして y = c(4, 4, 6, 7, 7, 8, 10) また、R以外のさまざまなツール(オンラインで利用できるもの、Excelアドオンとして利用できるもの)を使用しようとすると、異なるp値が報告されることがあります。 それで、どのツールが「正しい」p値を与えているかをどうやって知ることができますか? 「正しい」p値はありますか、またはいくつかのツールがp値を0.05未満にする場合、私は幸せでしょうか?(これらのツールはRのようなパラメーター化の可能性をあまり提供しない場合があります。) ここで何が欠けていますか?

2
グループ化されたペアを示すテーブルでテューキーHSD事後検定の結果を取得する方法
Rとの双方向のAnovaの後、TukeyHSD事後検定を実行して、有意差でグループ化されたソートされたペアを含むテーブルを取得したいと思います。(言い回しについては申し訳ありませんが、私はまだ統計に新しいです。) 私はこのようなものが欲しいです: だから、星や文字でグループ化。 何か案が?パッケージHSD.test()から関数をテストしましたが、agricolae双方向テーブルを処理していないようです。

1
Rでglmnetを使用した予測
glmnetR のパッケージを使用していくつかのデータをモデル化しようとしています。次のデータがあるとします training_x <- data.frame(variable1 = c(1, 2, 3, 2, 3), variable2 = c(1, 2, 3, 4, 5)) y <- c(1, 2, 3, 4, 5) (これは単純化です。私のデータはもっと複雑です。)次に、次のコードを使用してglmnetモデルを作成しました。 x <- as.matrix(training_x) library(glmnet) GLMnet_model_1 <- glmnet(x, y, family="gaussian", alpha=0.755, nlambda=1000, standardize=FALSE, maxit=100000) standardize=FALSE私の実際のデータはすでに標準化されているため、使用しています。次に、新しいデータセットを予測します。私の新しいデータは次のとおりだとしましょう: newdata <- as.matrix(data.frame(variable1 = c(2, 2, 1, 3), variable2 = …
13 r  glmnet 

6
ランダムフォレスト:テストセットで新しい因子レベルを処理する方法
Rのランダムフォレストモデルを使用して予測しようとしています。 ただし、テストセットとトレーニングセットでは値が異なる要因があるため、エラーが発生します。たとえば、因子にCat_2は34, 68, 76、トレーニングセットに表示されないテストセットの値などがあります。残念ながら、テストセットを制御することはできません...そのまま使用する必要があります。 私の唯一の回避策は、問題のある要素を数値に変換して戻すことas.numeric()でした。それは機能しますが、これらの値は数値的な意味を持たないコードであるため、私はあまり満足していません... テストセットから新しい値を削除する別の解決策があると思いますか?ただし1, 2, 14, 32、トレーニングとテストの両方にあり、予測に役立つ可能性のある情報を含む他のすべての因子値(たとえば、値など)を削除することはありません。

2
チャンクテストとは何ですか?
多重共線性の存在下でのモデル選択に関する質問に答えて、フランク・ハレル は次のように提案しました。 すべての変数をモデルに入れますが、競合する変数の効果に対して調整された1つの変数の効果をテストしません...共変数が全体の多自由度関連テストの代わりに力を結合するため、競合する変数のチャンクテストは強力です変数を個別にテストするときのように、互いに競合します。 何であるチャンク・テストは?そのアプリケーションの例を教えていただけますrか?

2
ポアソン回帰からデータサンプルを生成する
Rのポアソン回帰式からデータを生成する方法を疑問に思っていましたか?私はこの問題へのアプローチ方法を少し混乱させています。 私が想定している場合だから我々は2つの予測因子持つ及びX 2に分散されているN (0 、1 )。そして、切片は0で、係数は両方とも1になります。それから、私の推定は単純に:バツ1バツ1X_1バツ2バツ2X_2N(0 、1 )N(0、1)N(0,1) ログ(Y)= 0 + 1 ⋅ X1+ 1 ⋅ X2ログ⁡(Y)=0+1⋅バツ1+1⋅バツ2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 しかし、log(Y)を計算したら、それに基づいてポアソンカウントを生成するにはどうすればよいですか?ポアソン分布のレートパラメーターとは何ですか? 誰かが素晴らしいポアソン回帰サンプルを生成する簡単なRスクリプトを書くことができたら素晴らしいでしょう!

2
Rの勾配降下vs lm()関数?
Andrew Ngのスタンフォードでの無料のオンライン機械学習コースのビデオを見ていきます。彼は線形回帰を解決するアルゴリズムとして勾配降下法を議論し、それを実行するためにOctaveで関数を記述します。おそらくこれらの関数をRで書き換えることができますが、私の質問はlm()関数が線形回帰の出力をすでに与えていないかということです。なぜ独自の勾配降下関数を書きたいのですか?いくつかの利点がありますか、それとも純粋に学習演習としてですか?lm()は勾配降下を行いますか?

3
統計ワークベンチとしてのRuby
また、これは非常に多くの関係する質問ですワークベンチの統計情報としてPythonと統計作業台として優れ。RubyとPythonについて大きな議論があることは知っていますが、これはこの質問のポイントではありません。RubyはPythonよりも速く、非常に自然な構文を持っていると統計を理解するのに役立ち、Rの良い代替品になる可能性があると思いました(これも私の興味であり、Rに関する他の質問で引用されました)。たとえば、私が見たGoogle Techの講義の1つで(ここでリンクされている質問で引用されているように、講師はforループの作成中にRが遅いと文句を言います)。RubyにはRailsもあります。そのため、両方を統合する可能性があるかもしれません(PythonにはDjangoがありますが、私はここには入りません)。 したがって、質問は同じですが、私の興味のために、Rubyに: R、SPSS、Python、Excelなどを置き換える「統計ワークベンチ」としてRubyを使用したい場合、何をお勧めできますか? あなたの経験に基づいて、私は何を獲得し、失いますか? 以前のPythonとExcelの質問に基づいてこの質問を検討していることに注意してください。RubyとPython(またはExcel)を使用しても同じ影響があると思われる場合は、そう言って、前の質問の引数を指してください。この質問の目的は、同じ答えに対して前の質問を複製することではありません。ただし、違いはあると思います(言語の速度や構文など)が、Rubyの推奨事項や、たとえば、 PythonまたはExcel。そのため、これらの非常に類似した質問に対する他の言語/プログラムに対する以前の回答を検討してください。 編集:答えが逆になっているように見えるので、強調するために、私が探していた答えは、私がリンクしているPythonの質問で選ばれた答えのようなものです。Rubyとともに統計を学習することではありません。私はRで統計を学ぶという質問を指摘しました。可能であれば素晴らしいのですが、同時にRubyで統計を学ぶことを期待していません。この質問の統計情報の背景を推測できます。
13 r  python  software  ruby 

3
randomForestの正しいsampSizeを決定するための式またはルールはありますか?
randomForestで遊んでいますが、一般にsampSizeを増やすとパフォーマンスが向上することがわかりました。最適なsampSizeがどうあるべきか、それとも試行錯誤なのかを示唆するルール/公式/などはありますか?別の言い方をすると思います。sampSizeが小さすぎる、または大きすぎる(オーバーフィット)リスクは何ですか? この質問は、randomForestパッケージ内のランダムフォレストのR実装に関するものです。この関数randomForestにはパラメーターがsampSizeあり、ドキュメントで次のように説明されています。 描画するサンプルのサイズ。分類のために、sampsizeが層数の長さのベクトルである場合、サンプリングは層ごとに層化され、sampsizeの要素は層から描画される数を示します。
13 r  random-forest 

2
割合を分析する
合計が1になる複数の比率を含むデータセットがあります。勾配に沿ったこれらの比率の変更に興味があります(データの例については以下を参照)。 gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient = gradient, A1 = A1, A2 = A2, A3 = A3) require(ggplot2) require(reshape2) dfm <- melt(df, id = "gradient") ggplot(dfm, aes(x = gradient, y = value, …
13 r  multinomial 

2
単純な英語のRを使用したCox比例ハザード回帰モデルの解釈と検証
誰かが私のCoxモデルをわかりやすい英語で説明できますか? 関数を使用して、すべてのデータに次のCox回帰モデルを適合させましたcph。データはと呼ばれるオブジェクトに保存されますData。変数w、xとy連続しています。z2つのレベルの要因です。時間は月単位で測定されます。私の患者の中には、変数のデータが欠落しているものもありますz(注意:私は、モデルにバイアスをかけないようにこれらの値を調整するというハレル博士の提案を以下に正式に指摘しました。今後もそうします)。 > fit <- cph(formula = Surv(time, event) ~ w + x + y + z, data = Data, x = T, y = T, surv = T, time.inc = 12) Cox Proportional Hazards Model Frequencies of Missing Values Due to Each Variable Surv(time, event) w x y z …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.