タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

3
Rのノンパラメトリック反復測定マルチウェイAnova
次の質問は、私にとってしばらくの間、これらの聖杯の一つです。誰かが良いアドバイスを提供できることを願っています。 Rを使用して、ノンパラメトリックの反復測定マルチウェイアノーバを実行したいと思います。 私はしばらくオンライン検索と読書を行ってきましたが、これまでは一部のケースのみの解決策を見つけることができました:一方向ノンパラメトリック反復測定アノーバのフリードマン検定、多元ノンパラメトリックの{car}アノーバ関数による順序回帰anovaなど。部分的な解決策は、この質問スレッドで私が探しているものではありません。私がこれまでに公開した投稿でこれまでの調査結果をまとめました(タイトル:反復測定ANOVA with R(関数とチュートリアル)、誰でも役立つ場合) オンラインで読んだ内容が正しい場合、このタスクは混合順序回帰モデル(別名:比例オッズモデル)を使用して達成できます。 関連性があると思われる2つのパッケージを見つけましたが、このテーマに関するビネットは見つかりませんでした。 http://cran.r-project.org/web/packages/repolr/ http://cran.r-project.org/web/packages/ordinal/ そのため、このテーマに慣れていない私は、ここの人々からの指示を期待していました。 このテーマに関するチュートリアル/推奨読書はありますか?さらに良いことに、Rでこれを実行および分析する方法の簡単なコード例を提案できます(例:「ノンパラメトリック反復測定multiway anova」)。

1
重み付きランダムフォレストのRパッケージ?classwtオプション?
ランダムフォレストを使用して、極端に不均衡なデータセットの結果を予測しようとしています(マイノリティクラスの割合は約1%以下です)。従来のランダムフォレストアルゴリズムは、少数クラスに特別な注意を払うのではなく、全体的なエラー率を最小化するため、不均衡なデータには直接適用できません。したがって、マイノリティクラスの誤分類に高いコストを割り当てたいと思います(コストに敏感な学習)。 R のオプションclasswtを使用できるソースをいくつか読みましたがrandomForest、これの使用方法がわかりません。そして、機能に代わるものは他にありrandomForestますか?
16 r  random-forest 

2
ACFおよびPACF検査によるARMA係数の推定
ACFプロットとPACFプロットの目視検査により、時系列の適切な予測モデルをどのように推定しますか?どちらがARまたはMAに通知しますか(つまり、ACFまたはPACF)(または、両方とも)。グラフのどの部分が、季節性ARIMAの季節的および非季節的部分を示していますか? 以下に表示されるACFおよびPCF機能を検討してください。それらは、単純な差異と季節(元のデータ、対数変換されたデータ)の2つの差異がある2つのログ変換された系列からのものです。シリーズをどのように特徴付けますか?どのモデルが最適ですか?

2
LDAの「線形判別係数」とは何ですか?
ではR、ldaライブラリの関数を使用MASSして分類を行います。LDAを理解すると、入力xxxはラベルyyyが割り当てられ、p(y|x)p(y|x)p(y|x)が最大化されますよね? 私はモデルを適合場合には、ここでx=(Lag1,Lag2)x=(Lag1,Lag2)x=(Lag1,Lag2)y=Direction,y=Direction,y=Direction,私はかなりの出力を理解していませんlda、 編集:以下の出力を再現するには、最初に実行します: library(MASS) library(ISLR) train = subset(Smarket, Year < 2005) lda.fit = lda(Direction ~ Lag1 + Lag2, data = train) > lda.fit Call: lda(Direction ~ Lag1 + Lag2, data = train) Prior probabilities of groups: Down Up 0.491984 0.508016 Group means: Lag1 Lag2 Down 0.04279022 0.03389409 Up -0.03954635 -0.03132544 …

2
回帰で日付変数を使用するのは理にかなっていますか?
Rで日付形式の変数を使用することに慣れていません。線形回帰モデルで説明変数として日付変数を追加することができるかどうか疑問に思っています。可能であれば、どのように係数を解釈できますか?結果変数に対する1日の影響ですか? 私がやろうとしていることの例で私の要点を見てください。

3
欠損値や不規則な時系列でR予測パッケージを使用する
R forecastパッケージ、zooおよび不規則な時系列や欠損値の補間などのパッケージに感銘を受けました。 私のアプリケーションはコールセンターのトラフィック予測の領域にあるため、週末のデータは常に(ほぼ)欠落していzooます。これはでうまく処理できます。また、いくつかの離散ポイントが欠落している可能性がありますNA。そのためにRを使用しています。 事ある次のような予測パッケージ、すべての素敵な魔法eta()、auto.arima()など、平野期待しているように見えるts物体は、つまりは、欠落したデータを含まない時系列を等間隔。等間隔のみの時系列の実世界のアプリケーションは確かに存在すると思いますが、-私の意見では-非常に限られています。 少数の離散の問題NA値が容易に提供される補間関数のいずれかを使用することによって解決することができるzooだけでなくによってforecast::interp。その後、予測を実行します。 私の質問: 誰かがより良い解決策を提案していますか? (私の主な質問)少なくとも私のアプリケーションドメイン、コールセンターのトラフィック予測(および他のほとんどの問題ドメインを想像できる限り)では、時系列は等間隔ではありません。少なくとも、定期的な「営業日」スキームなどがあります。それを処理し、予測パッケージのすべてのクールな魔法を使用する最良の方法は何ですか? 週末を埋めるために時系列を「圧縮」し、予測を実行してから、週末にNA値を再挿入するためにデータを再度「膨らませ」ますか?(それは残念だと思いますか?) 予測パッケージを、動物園やそのような不規則な時系列パッケージと完全に互換させる計画はありますか?はいの場合、いつ、いいえの場合、なぜですか? 私は予測(および統計全般)が初めてなので、重要なことを見落とす可能性があります。

2
RのキャレットパッケージでのPCAおよびk分割交差検証
Courseraの機械学習コースの講義を再視聴しました。教授が教師あり学習アプリケーションでデータを前処理するためのPCAについて説明しているセクションでは、PCAはトレーニングデータに対してのみ実行し、マッピングを使用して相互検証とテストセットを変換します。PCAおよびtrain / test splitも参照してください。 ただし、caretRパッケージでは、train()関数に渡すトレーニングデータは既にPCAによって処理されています。そうする際、アルゴリズムが実行クロスバリデーションをK倍クロスバリデーションセットが既に介してPCAを用いて処理されているpreProcess()とpredict()「フィッティング」と実際にPCAに使用されます。 状況に対する私の理解は正しいですか?つまり、データの前処理がトレーニングセットと同様にクロス検証セットで実行されるため、PCA(または実際には、任意の再スケーリング/センタリング方法)でのクロス検証のキャレットの手順は「間違っています」か?もしそうなら、これは結果にどれほど大きな影響を与えるでしょうか?

3
数式または分析からのデータをシミュレートする一般的な方法はありますか?
実験計画データフレームからのデータのde novoシミュレーション。 Rに重点を置いて(ただし、他の言語のソリューションは素晴らしいでしょう)。 実験または調査の設計において、データをシミュレートし、このシミュレートされたデータを分析することにより、設計の長所と短所に関する素晴らしい洞察を得ることができます。 このようなアプローチは、統計的テストの理解と適切な使用にも不可欠です。 ただし、このプロセスはやや面倒な傾向があり、多くの場合、実験や調査でこの重要なステップをスキップするようになります。 統計モデルとテストには、データのシミュレーションに必要な情報の大部分が含まれています(分布の仮定または明示的な記述を含む)。 分析モデル(および関連する仮定(例:正常性とバランス)、因子のレベル、および有意性の尺度(p値など)が与えられた場合、シミュレートされたデータ(理想的には、 print()、predict()、simulate())。 このような一般化されたシミュレーションフレームワークは可能ですか? もしそうなら、そのようなフレームワークは現在利用可能ですか? 例、次のような関数が欲しい sim(aov(response~factor1+factor2*factor3), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", "B", "C"), factor3=c("A", "B", "C"))) すなわち、次の一般化バージョン: sim.lm<-function(){ library(DoE.base) design<-fac.design(nlevels=c(10,3,3), factor.names=c("factor1", "factor2", "factor3"), replications=3, randomize=F) response<-with(design, as.numeric(factor1)+ as.numeric(factor2)+ as.numeric(factor3)+ as.numeric(factor2)*as.numeric(factor3)+ rnorm(length(factor1))) simulation<-data.frame(design, response)} または sim(glm(response~factor1+factor2*factor3, family=poisson), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", …

6
一連のデータで局所的なピーク/谷を見つける方法は?
これが私の実験です。 quantmodパッケージのfindPeaks関数を使用しています: 許容範囲5内の「ローカル」ピーク、つまり、時系列がローカルピークから5低下した後の最初の位置を検出したい: aa=100:1 bb=sin(aa/3) cc=aa*bb plot(cc, type="l") p=findPeaks(cc, 5) points(p, cc[p]) p 出力は [1] 3 22 41 私は3つよりも多くの「局所的なピーク」を期待しているので、間違っているようです... 何かご意見は?
16 r  time-series 

6
Rでの計算速度?
私は、現在の大規模な確率モデルの1つをSASから新しい言語に移行することを任されました。個人的には、伝統的なコンパイル言語を好みますが、PIは私が使用したことのないRをチェックアウトすることを望んでいます。SASからモデルを取得する動機は、(1)SASが高価であるため多くの人がモデルにアクセスできないこと、(2)インタプリタ言語から遠ざかりたい、(3)SASが遅いことです。持っているモデルのタイプ。 (1)の場合、明らかにRは自由である必要性を満たします。(2)の場合、理想的には実行可能ファイルを作成したいのですが、Rは通常スクリプト言語として使用されます。誰かが最近Rコンパイラを発表したようです。これは好評ですか?使いやすいですか?ユーザーにRを強制的にダウンロードさせたくないのです。(3)の場合、SASの問題は、データセットのI / Oの書き込みと読み取りに費やされる時間です。このモデルは計算集約型であり、多くの場合、実行時間によって制限されます。(たとえば、週末に誰かのコンピューターをハイジャックして実行することは珍しくありません。)Fortranで構築された同様のモデルには、すべての作業がメモリー内で行われるため同じ問題はありません。Rはどのように機能しますか?データステップで機能するという点で、SASと同じでしょうか。ファイルの読み書き?または、メモリ内で配列を操作できますか?
16 r  computing 

4
クラシック線形モデル-モデル選択
私は古典的な線形モデルを持ち、5つのリグレッサがあります。それらは互いに相関関係がなく、応答との相関が非常に低くなっています。3つのリグレッサがt統計に有意な係数を持つモデルに到達しました(p <0.05)。残りの2つの変数のいずれかまたは両方を追加すると、追加された変数のt統計値に対してp値が0.05より大きくなります。これは、3変数モデルが「最良」であると信じさせることにつながります。 ただし、Rでanova(a、b)コマンドを使用すると(aは3変数モデル、bは完全モデル)、F統計のp値は<0.05であり、3変数よりも完全モデルを優先するように指示されますモデル。これらの明らかな矛盾をどのように調整できますか? PS Editに感謝:さらなる背景。これは宿題ですので、詳細は投稿しませんが、リグレッサーが何を表すかについては詳しく説明しません。1から5までの番号が付けられているだけです。

3
タイプII(ベータ)エラー、検出力、サンプルサイズをグラフィカルに表示するにはどうすればよいですか?
統計の概要を書くように求められ、p値と検出力の関係をグラフィカルに示す方法に苦労しています。私はこのグラフを思いつきました: 私の質問:これを表示するより良い方法はありますか? ここに私のRコードがあります x <- seq(-4, 4, length=1000) hx <- dnorm(x, mean=0, sd=1) plot(x, hx, type="n", xlim=c(-4, 8), ylim=c(0, 0.5), ylab = "", xlab = "", main= expression(paste("Type II (", beta, ") error")), axes=FALSE) axis(1, at = c(-qnorm(.025), 0, -4), labels = expression("p-value", 0, -infinity )) shift = qnorm(1-0.025, mean=0, …
16 r  teaching  power 

2
ランダム効果で順序ロジスティック回帰を使用する方法は?
私の研究では、いくつかのメトリックでワークロードを測定します。心拍変動(HRV)、皮膚電気活動(EDA)および主観的尺度(IWS)を使用。正規化後、IWSには3つの値があります。 ワークロードが通常よりも低い ワークロードは平均です ワークロードが通常よりも高くなっています。 生理学的測定が主観的な作業負荷をどれだけうまく予測できるかを見たい。 したがって、比率データを使用して順序値を予測したいと思います。によると:数値/カテゴリ値の両方でRで順序ロジスティック回帰分析を実行するにはどうすればよいですか?これは、MASS:polr関数を使用して簡単に実行できます。 ただし、被験者間差、性別、喫煙などのランダム効果も考慮したいと思います。このチュートリアルを見て、にランダム効果を追加する方法がわかりませんMASS:polr。代わりにlme4:glmerオプションがありますが、この関数はバイナリデータの予測のみを許可します。 順序ロジスティック回帰にランダム効果を追加することは可能ですか?

3
単純なカイ二乗検定の代わりとしてglm()を使用する
glm()R を使用して帰無仮説を変更することに興味があります。 例えば: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) という仮説をテストします。nullを =何らかの任意の値に変更したい場合はどうすればよいですか? p=0.5p=0.5p = 0.5pppglm() これはprop.test()and でも実行できることはわかっていますが、カテゴリデータに関連するすべての仮説をテストchisq.test()するために使用glm()するアイデアを探求したいと思います。

1
応答変数が0〜1の混合モデルを適合させる方法は?
私はlme4::glmer()、バイナリではなく、0と1の間の連続変数である従属変数を使用して、二項一般化混合モデル(GLMM)を近似しようとしています。この変数は確率と考えることができます。実際、それは人間の被験者によって報告された確率です(私は分析に役立つ実験で)。すなわち、それはだない「離散」割合が、連続変数。 私のglmer()予想通りの呼び出しは(下記参照)は動作しません。どうして?私に何ができる? 後で編集:以下の私の答えは、この質問の元のバージョンよりも一般的であるため、質問もより一般的なものに変更しました。 詳細 明らかに、バイナリDVだけでなく、0と1の間の連続DVにもロジスティック回帰を使用することが可能です。確かに、私が走るとき glm(reportedProbability ~ a + b + c, myData, family="binomial") 警告メッセージが表示されます Warning message: In eval(expr, envir, enclos) : non-integer #successes in a binomial glm! しかし、非常に合理的な適合(すべての要因はカテゴリであるため、モデル予測が被験者間平均に近いかどうか、およびそれらが近いかどうかを簡単に確認できます)。 ただし、実際に使用したいのは glmer(reportedProbability ~ a + b + c + (1 | subject), myData, family="binomial") それは私に同一の警告を与え、モデルを返しますが、このモデルは明らかに非常にオフです。固定効果の推定値は、glm()対象平均値と対象平均値から非常に離れています。(そしてglmerControl(optimizer="bobyqa")、glmer呼び出しに含める必要があります。そうしないと、まったく収束しません。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.