タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
大規模なスパース行列の次元削減(SVDまたはPCA)
/ edit:irlba :: prcomp_irlbaを使用できるようになりました。 / edit:自分の投稿のフォローアップ。 irlba現在、「center」および「scale」引数があり、これを使用して主成分を計算できます。例: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Matrix機械学習アルゴリズムで使用したい機能の大規模でまばらなものがあります。 library(Matrix) set.seed(42) rows <- 500000 cols <- 10000 i <- unlist(lapply(1:rows, function(i) rep(i, sample(1:5,1)))) j <- sample(1:cols, length(i), replace=TRUE) M <- sparseMatrix(i, j) このマトリックスには多くの列があるため、その次元を管理しやすいものに減らしたいと思います。優れたirlbaパッケージを使用してSVDを実行し、最初のn個の主要コンポーネントを返すことができます(ここに示す5つ。実際のデータセットではおそらく100または500を使用します)。 library(irlba) pc <- irlba(M, nu=5)$u ただし、PCAを実行する前に、行列を中央に配置する必要があることを読みました(各列から列の平均値を減算します)。これは私のデータセットで行うことは非常に難しく、さらにマトリックスのスパース性を破壊します。 スケーリングされていないデータに対してSVDを実行し、それを機械学習アルゴリズムに直接入力するのはどの程度「悪い」のでしょうか?マトリックスのスパース性を維持しながら、このデータをスケーリングできる効率的な方法はありますか? / edit:AはB_minerによって注目されました。「PC」は次のようになります。 …

2
統計学習の要素からk最近傍分類器の決定境界をプロットする方法は?
Trevor Hastie&Robert Tibshirani&Jerome Friedmanの著書ElemStatLearn "The Elements of Statistics Learning:Data Mining、Inference、and Prediction。Second Edition"に記述されているプロットを生成したい。プロットは次のとおりです。 でこの正確なグラフをどのように作成できるのかR、特に境界線を示すグリッドグラフィックと計算に注意してください。

3
100万のPCAエディションを視覚化する
主成分分析の出力を、単なるサマリーテーブルよりも多くの洞察を与える方法で視覚化することは可能ですか?〜1e4など、観測数が多い場合に実行できますか?そして、R [他の環境も歓迎]でそれを行うことは可能ですか?

1
BUGSとRのパラメーター化はどの分布で異なりますか?
BUGSとRのパラメーター化が異なる正規分布、対数正規分布、ワイブル分布を見つけました。 これらのそれぞれについて、Rが使用する2番目のパラメーターは、BUGS(または私の場合はJAGS)で使用する前に逆変換(1 /パラメーター)する必要があることを収集します。 現在存在するこれらの変換の包括的なリストを知っている人はいますか? 私が見つけることができる最も近いものは、JAGS 2.2.0ユーザーマニュアルの表7の分布を、?rnorm等の結果と、おそらくいくつかの確率テキストと比較することです。このアプローチでは、変換をPDFから個別に推定する必要があるようです。 このタスク(および起こりうるエラー)が既に行われている場合は回避するか、ここからリストを開始します。 更新 Benの提案に基づいて、パラメーターのデータフレームをRからBUGSパラメーター化に変換する次の関数を作成しました。 ##' convert R parameterizations to BUGS paramaterizations ##' ##' R and BUGS have different parameterizations for some distributions. ##' This function transforms the distributions from R defaults to BUGS ##' defaults. BUGS is an implementation of the BUGS language, and these …

6
研究の長期的な再現性を高める方法(特にRとSweaveを使用)
コンテキスト:ジェイクが書いた 再現可能な研究に関する以前の質問への回答 JASAアーカイブの作成時に発見した問題の1つは、CRANパッケージのバージョンとデフォルトが変更されたことです。そのため、そのアーカイブには、使用したパッケージのバージョンも含まれています。ユーザーがパッケージを変更すると、ビネットベースのシステムはおそらく破損します(大要であるパッケージ内に追加のパッケージを含める方法がわからない)。 最後に、R自体が変更された場合の対処方法について考えます。たとえば、仮想マシンが巨大にならないように、論文に使用される計算環境全体を再現する仮想マシンを作成する方法はありますか? 質問: 再現可能なデータ分析が将来(たとえば、発行後5年、10年、または20年)再現可能であることを保証するための優れた戦略は何ですか? 具体的には、SweaveとRを使用するときに継続的な再現性を最大化するための優れた戦略は何ですか? これは、再現性のあるデータ分析プロジェクトを、わずかに異なるデフォルト、パッケージなどを使用して他の誰かのマシンで実行することを保証する問題に関連しているようです。

1
混合効果モデルの多重比較
混合効果モデルを使用していくつかのデータを分析しようとしています。私が収集したデータは、遺伝子型の異なる若い動物の体重の経時変化を表しています。 ここで提案されているアプローチを使用しています:https : //gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ 特に、私はソリューション#2を使用しています だから私は次のようなものを持っています require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) av <- anova(model) ここで、複数の比較を行いたいと思います。multcomp私ができることを使用して: require(multcomp) comp.geno <- glht(model, linfct=mcp(Genotype="Tukey")) print(summary(comp.geno)) そして、もちろん、時間をかけて同じことができます。 2つの質問があります。 mcpTimeとGenotypeの相互作用を確認するにはどうすればよいですか? 実行するglhtと、次の警告が表示されます。 covariate interactions found -- default contrast might be inappropriate どういう意味ですか?安全に無視できますか?それともそれを避けるために何をすべきですか? 編集: 私は言うこのPDFを見つけました: この場合、対象のパラメーターを自動的に決定することは不可能であるため、multcompのmcp()は、デフォルトで、共変量と相互作用を無視して、主効果のみの比較を生成します。バージョン1.1-2以降、相互作用項と共変量の平均化を指定するには、それぞれ引数Interaction_average = TRUEとcovariate_average = TRUEを使用します。一方、1.0-0より古いバージョンは相互作用項の平均化を自動的に行います。ただし、ユーザーには、必要なコントラストのセットを手動で書き出すことをお勧めします。デフォルトのコントラストの測定値に疑問がある場合はいつでもこれを行う必要があります。これは通常、高次の相互作用項を持つモデルで発生します。この問題に関するさらなる議論と例については、Hsu(1996)のChapter〜7とSearle(1971)のChapter〜7.3を参照してください。 私はそれらの本にアクセスできませんが、おそらく誰かがここにいますか?

2
Rのランダムフォレスト分類における一連の予測変数の相対的重要性
randomForestRの分類モデルに対する変数セットの相対的な重要度を決定したいのですが、importance関数はMeanDecreaseGini個々の予測変数のメトリックを提供します。セット内の各予測変数でこれを合計するのと同じくらい簡単ですか? 例えば: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of b1+b2?

3
投げ縄回帰モデルのAICとBICを計算することはできますか?
投げ縄回帰モデルや、パラメータが部分的にしか方程式に入力されていない他の正規化モデルのAICまたはBIC値を計算することは可能ですか?自由度をどのように決定しますか? Rを使用して、投げ縄回帰モデルをパッケージのglmnet()関数に適合glmnetさせています。モデルのAIC値とBIC値を計算する方法を知りたいです。このようにして、値を正則化なしで適合するモデルと比較する場合があります。これは可能ですか?
31 r  model-selection  lasso  aic  bic 

7
数百万のポイントが存在する場合にデータをより効率的にプロットする統計的方法?
Rは、数百万のポイントが存在する場合にプロットを生成するのに時間がかかることがあります-ポイントが個別にプロットされることを考えると、当然です。さらに、そのようなプロットは散らかりすぎて有用ではないことが多い。多くのポイントが重なり合って黒いマスを形成し、そのマスに多くのポイントをプロットするのに多くの時間が費やされます。 標準の散布図で大きなデータを表す統計的な代替手段はありますか?密度プロットを検討しましたが、他の選択肢はありますか?nnn

2
準二項分布とは何ですか(GLMのコンテキストで)?
準二項分布とは何か、それが何をするのか、直感的な概要を誰かが提供できることを望んでいます。私は特にこれらの点に興味があります: 準二項分布が二項分布とどのように異なるか。 応答変数がプロポーションの場合(例の値には0.23、0.11、0.78、0.98が含まれます)、準二項モデルはRで実行されますが、二項モデルは実行されません。 TRUE / FALSE応答変数が過度に分散しているときに準二項モデルを使用する理由。

2
lmeとlmerの比較
これら2つの機能の現在の違いについて、誰かが私を啓発できるかどうか疑問に思っていました。私は次の質問を見つけました:混合効果モデルのためにnlmeまたはlme4 Rライブラリを選択する方法は?、しかしそれは数年前のものです。それはソフトウェア界での生涯です。 私の具体的な質問は次のとおりです。 内の任意の相関構造(まだ)が存在するlmeというlmer処理しませんか? lmerパネルデータに使用することは可能/推奨ですか? これらがやや基本的なものである場合はおApび申し上げます。 もう少し詳しく:パネルデータは、同じ個人について、異なる時点で複数の測定値がある場所です。私は通常、ビジネスコンテキストで働いています。ビジネスコンテキストでは、何年にもわたって繰り返し/長期の顧客のデータを持っているかもしれません。時間の経過に伴う変動を許容したいのですが、月または年ごとにダミー変数を明確に適合させるのは非効率的です。ただし、lmerこの種のデータに適したツールであるかどうか、またはlme持っている自己相関構造が必要かどうかはわかりません。

1
anova()コマンドはlmerモデルオブジェクトで何をしますか?
願わくば、これはlmer、lme4 Rパッケージに適合する混合効果モデルから平方和を分解する性質について、ここの誰かが答えてくれることを願っています。 まず、このアプローチの使用に関する論争を承知していると言う必要があります。実際には、ブートストラップされたLRTを使用してモデルを比較する可能性が高くなります(Faraway、2006によって示唆されています)。しかし、私は結果を再現する方法に戸惑っていますので、私自身の正気のために、私はここで尋ねると思いました。 基本的に、lme4パッケージに適合した混合効果モデルを使用することに慣れています。このanova()コマンドを使用して、モデル内の固定効果を順次テストすることの概要を説明できることを知っています。私の知る限り、これはFaraway(2006)が「期待平均二乗」アプローチと呼んでいるものです。私が知りたいのは、二乗和の計算方法です。 特定のモデルから(を使用してcoef())推定値を取得し、それらが固定されていると仮定して、モデルの残差の2乗和を使用して、関心のある要素の有無にかかわらずテストを実行できることを知っています。これは、単一の被験者内因子を含むモデルには適しています。ただし、分割プロット設計を実装する場合、私が取得する平方和の値はaov()、適切なError()指定を使用してRによって生成される値と同等です。ただし、これは、F比が同じであるという事実にもかかわらず、モデルオブジェクトのコマンドによって生成される平方和と同じではありませんanova()。 もちろんError()、混合モデルでは階層は必要ないため、これは完全に理にかなっています。ただし、これは、適切なF比を提供するために、混合モデルで平方和が何らかの形でペナルティを受けることを意味する必要があります。これはどのように達成されますか?また、モデルはプロット間二乗和をどうにかして修正しますが、プロット内二乗和は修正しません。明らかに、これは、異なる効果に対して異なるエラー値を指定することによって達成された古典的な分割プロットANOVAに必要なものです。それで、混合効果モデルはどのようにこれを可能にしますか? 基本的anova()に、lmerモデルオブジェクトに適用されたコマンドの結果を自分で複製して結果と理解を検証したいのですが、現在のところ、通常の被験者内設計でこれを達成できますが、分割-プロットのデザインと私はこれがそうである理由を見つけることができないようです。 例として: library(faraway) library(lme4) data(irrigation) anova(lmer(yield ~ irrigation + variety + (1|field), data = irrigation)) Analysis of Variance Table Df Sum Sq Mean Sq F value irrigation 3 1.6605 0.5535 0.3882 variety 1 2.2500 2.2500 1.5782 summary(aov(yield ~ irrigation + variety + Error(field/irrigation), data …

4
RでPCAを使用して次元削減を実行する方法
大きなデータセットがあり、次元削減を実行したい。 今ではどこでも、PCAをこれに使用できると読んでいます。ただし、PCAを計算/実行した後、何をすべきかまだわかりません。Rでは、これはコマンドで簡単に行えprincompます。 しかし、PCAを計算した後はどうすればよいでしょうか?最初の主成分を使用することにした場合、データセットを正確に削減するにはどうすればよいですか?100100100
30 r  pca 


1
GAMのテンソル製品の相互作用の背後にある直観(RのMGCVパッケージ)
一般化された加法モデルは 、たとえばモデル です。関数は滑らかで、推定されます。通常、罰せられたスプラインによって。MGCVはRのパッケージであり、著者(Simon Wood)はRの例を含む彼のパッケージに関する本を書いています。ルパート等 (2003)同じもののより単純なバージョンについて、はるかにアクセスしやすい本を書いてください。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 私の質問は、これらの種類のモデル内の相互作用についてです。次のようなことをしたい場合: OLS土地にいた場合(は単なるベータです) 、解釈に問題はありません。ペナルティスプラインを介して推定する場合、加算コンテキストでの解釈にも問題はありません。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 ただし、GAMのMGCVパッケージには、「テンソル積平滑化」と呼ばれるものがあります。私は「テンソル製品」をグーグルで検索し、見つけた説明を読もうとするとすぐに目が輝いた。私は十分に頭が良くないか、数学があまりうまく説明されていないか、またはその両方です。 コーディングの代わりに normal = gam(y~s(x1)+s(x2)+s(x1*x2)) テンソル製品は同じ(?) what = gam(y~te(x1,x2)) 私がする時 plot(what) または vis.gam(what) 本当にクールな出力が得られます。しかし、私はブラックボックス内で何が起こっているのte()か、また前述のクールな出力をどのように解釈するのか分かりません。先日、セミナーを開催しているという悪夢に見舞われました。みんなにクールなグラフを見せて、それが何を意味するのかと尋ねましたが、知りませんでした。それから私は服を着ていないことを発見しました。 ここのボンネットの下で何が起こっているのかについて少しのメカニズムと直感を与えることで、誰も私と後世の両方を助けることができますか?理想的には、通常の加法相互作用の場合とテンソルの場合の違いについて少し言ってください。数学に進む前に、すべてを簡単な英語で言うことのボーナスポイント。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.