タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
Rを使用した二分データ(バイナリ変数)の因子分析の例を介してステップを探しています
バイナリ変数のみのいくつかの二分データがあり、上司は四分相関行列を使用して因子分析を実行するように頼みました。私は以前、ここにある例とUCLAのstatサイトなどのサイトに基づいて異なる分析を実行する方法を自分自身に教えることができましたが、二分法の因子分析の例を通してステップを見つけることはできないようです。 Rを使用したデータ(バイナリ変数) 私が見たのCHLの応答ややまねの質問には、私も見ましたttnphns'答えを、私はもっと何かを探しています綴ら、私が一緒に働くことができる例を通してステップ。 ここの誰かが、Rを使用したバイナリ変数の因子分析の例を通してそのようなステップを知っていますか? 更新2012-07-11 22:03:35Z また、3次元の確立された機器で作業していることを追加する必要があります。これにいくつかの質問を追加し、4つの異なる次元を見つけたいと考えています。さらに、サンプルサイズはのみで、現在個のアイテムがあります。サンプルサイズとアイテムの数をいくつかの心理学の記事と比較しましたが、間違いなく低価格ですが、とにかく試してみたかったのです。しかし、これは私が探しているステップスルーの例にとって重要ではなく、以下のカラカルの例は本当に素晴らしいようです。朝一番に自分のデータを使って作業を進めます。n = 153n=153n=153191919

1
変量効果を持つモデルのlmerで分散成分を推定し、lmeの結果と比較する方法
2つの異なるソース集団からの異なる家族を育てる実験を行いました。各家族には、2つの治療法のいずれかが割り当てられました。実験の後、私は各個人のいくつかの特性を測定しました。治療またはソースの効果とそれらの相互作用をテストするために、ランダムな因子として家族を持つ線形混合効果モデルを使用しました。 lme(fixed=Trait~Treatment*Source,random=~1|Family,method="ML") これまでのところ、ここで相対的な分散成分、つまり、相互作用だけでなく治療またはソースによって説明される変動の割合を計算する必要があります。 ランダム効果がなければ、平方和(SS)を簡単に使用して、各要因によって説明される分散を計算できます。しかし、混合モデル(ML推定あり)にはSSがありません。したがって、分散を推定するために、ランダム効果としてトリートメントとソースも使用できると考えました。 lme(fixed=Trait~1,random=~(Treatment*Source)|Family, method="REML") ただし、場合によっては、lmeが収束しないため、lme4パッケージのlmerを使用しました。 lmer(Trait~1+(Treatment*Source|Family),data=DATA) サマリー関数を使用してモデルから分散を抽出する場所: model<-lmer(Trait~1+(Treatment*Source|Family),data=regrexpdat) results<-VarCorr(model) variances<-results[,3] VarCorr関数と同じ値を取得します。次に、これらの値を使用して、合計を合計変動として、変動の実際の割合を計算します。 私が苦労しているのは、初期lmeモデルの結果の解釈(固定効果としての処理とソースを使用)と、分散コンポーネントを推定するランダムモデル(ランダム効果としての処理とソースを使用)です。ほとんどの場合、各要因によって説明される分散の割合は、固定効果の有意性に対応していないことがわかります。 たとえば、形質HDの場合、最初のlmeは、相互作用の傾向と治療の重要性を示唆しています。逆方向の手順を使用すると、治療にはかなりの傾向があることがわかります。ただし、分散コンポーネントを推定すると、Sourceの分散が最も高く、分散全体の26.7%を占めることがわかります。 lme: anova(lme(fixed=HD~as.factor(Treatment)*as.factor(Source),random=~1|as.factor(Family),method="ML",data=test),type="m") numDF denDF F-value p-value (Intercept) 1 426 0.044523 0.8330 as.factor(Treatment) 1 426 5.935189 0.0153 as.factor(Source) 1 11 0.042662 0.8401 as.factor(Treatment):as.factor(Source) 1 426 3.754112 0.0533 そして、lmer: summary(lmer(HD~1+(as.factor(Treatment)*as.factor(Source)|Family),data=regrexpdat)) Linear mixed model fit by REML Formula: …
14 r  anova  variance  lme4-nlme 

5
探索的因子分析によるRとSPSS間の矛盾の解釈
私はコンピューターサイエンスの大学院生です。私は研究プロジェクトのためにいくつかの探索的因子分析を行ってきました。私の同僚(プロジェクトを率いる)はSPSSを使用しますが、私はRを使用することを好みます。これは、2つの統計パッケージ間に大きな不一致を発見するまで問題ではありませんでした。 抽出方法として主軸ファクタリングを使用しています(PCAと因子分析の違いを十分に認識しており、少なくとも意図的にPCAを使用していないことに注意してください)。私が読んだことから、これはRの「主軸」メソッド、およびRのドキュメントによると SPSSの「主軸因数分解」または「非加重最小二乗」のいずれかに対応するはずです。相関因子を期待し、パターンマトリックスを解釈しているため、斜め回転法(具体的にはpromax)を使用しています。 RとSPSSで2つの手順を実行すると、大きな違いがあります。パターン行列はさまざまな負荷を与えます。これにより、変数関係にほぼ同じ要因が与えられますが、対応する負荷には最大0.15の差があります。これは、抽出方法とプロマックス回転の異なる実装によって予想されるよりも大きいようです。しかし、それは最も驚くべき違いではありません。 要因によって説明される累積分散は、SPSS結果で約40%、R結果で31%です。これは大きな違いであり、Rの代わりにSPSSを使用することを同僚に求めています。これには問題はありませんが、大きな違いがあるため、何かを間違って解釈している可能性があると思います。これは問題です。 SPSSは、水をさらに濁らせて、非加重最小二乗ファクタリングを実行すると、さまざまな種類の説明された分散を報告します。初期固有値による説明された分散の割合は40%ですが、抽出平方和(SSL)からの説明された分散の割合は33%です。これにより、初期固有値は見るのに適切な数ではないと思うようになります(これは回転の前に説明された分散であると思われますが、それは非常に大きいのですが)。さらに紛らわしいことに、SPSSはRotation SSLも表示しますが、説明された分散の割合を計算しません(相関係数があるため、SSLを追加して合計分散を見つけることができないことを教えてくれます。Rから報告されたSSLはこれらのいずれにも一致せず、Rは合計分散の31%を表すと教えてくれます。RのSSLは、ローテーションSSLと最も密接に一致します。元の相関行列からのRの固有値は、SPSSからの初期固有値と一致します。 また、私はさまざまな方法を使用して遊んでいましたが、SPSSのULSとPAFはRのPA方法に最も近いようです。 私の具体的な質問: 因子分析の実装では、RとSPSSの間でどの程度の違いが予想されますか? SPSSからの二乗荷重の和、初期固有値、抽出、回転のどれを解釈する必要がありますか? 私が見落としていたかもしれない他の問題はありますか? SPSSおよびRへの私の呼び出しは次のとおりです。 SPSS: FACTOR /VARIABLES <variables> /MISSING PAIRWISE /ANALYSIS <variables> /PRINT INITIAL KMO AIC EXTRACTION ROTATION /FORMAT BLANK(.35) /CRITERIA FACTORS(6) ITERATE(25) /EXTRACTION ULS /CRITERIA ITERATE(25) /ROTATION PROMAX(4). R: library(psych) fa.results <- fa(data, nfactors=6, rotate="promax", scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)

3
誰かが時系列の類似性を決定するための動的なタイムワーピングについて説明してもらえますか?
私は、時系列を一緒に比較するための動的なタイムワープ測定を把握しようとしています。このような3つの時系列データセットがあります。 T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, 0.00029057097196, 0.000353232073472, 0.000394710874285, 0.000207555002076, 0.000402738622634, 0, 0.000309693403531, 0.000506521463847, 0.000226988991034, 0.000414164423276, 9.6590360282e-05, 0.000476689865573, 0.000377572210685, 0.000378967314069, 9.25240562546e-05, 0.000172309813044, 0.000447627573859, …

1
等式および不等式制約のための制約付き最適化ライブラリ
最適化機能に適した制約付き最適化ライブラリの選択に関する推奨事項はありますか?私はai)線形等式および不等式制約のある非線形関数を最小化し、ii)関数の勾配とヘシアンを利用可能にしました。 それが役立つ場合、私が最小化している関数はKullback-Liebler divergenceです。 constrOptimは不等式制約のみを扱います。Quadprogは二次関数を処理します。信頼は制約をサポートしていません。したがって、KLの発散はこれらのソリューションに適合しません。 最適化のためのR Cranタスクページには、かなりの数のソリューションがあります。Iam は、interior-pointまたはtrust-region-reflectiveを使用していると思われるfmincon()関数を使用して、MATLABで最適化を実行できます。理想的には、定義された問題に適したライブラリがあります。

3
RでLeveneテスト機能を使用するには?
私は統計とRの初心者で、Levene関数の使用に問題があります(2つのサンプルの分散の等価性を確認したいと思います)。ドキュメントには、実行する必要があると書かれています: levene.test(y、グループ) しかし、私はyとグループとして何を置くべきか分かりませんか?分散の等価性を確認したい2つの異なるサンプルがあります。サンプルの値の1つをyとして、2番目の値をグループパラメーターとして設定する必要がありますか? ヒントはありますか?

2
Rを使用したテキストマイニングの例(tmパッケージ)
tm友達がUCINETでテキストコーパスを探索し、テキストクラウド、2モードネットワークグラフ、および単一値分解(Stataを使用したグラフィックス付き)を示したドラフトペーパーを読んだ後、3日間手を出しました。Mac OS Xでは、Snowball(ステミング)やRgraphviz(グラフ)などのライブラリの背後にあるJavaに問題があります。 誰かのポイントアウトは可能性がないパッケージ -私が見てきましたtm、wordfishそしてwordscores、そしてNLTKについて知っている-しかし、研究は、コードで可能な場合は、テキスト形式のデータに、首尾よく使用しているtmか、何か他のものは、議会の議論や法的文書などのデータを分析するために?私はこの問題について多くを見つけることができず、さらに学ぶべきコードが少ないようです。 私自身のプロジェクトは2か月の議会討論であり、これらの変数はCSVファイルで通知されます:議会セッション、スピーカー、議会グループ、口頭介入のテキスト。講演者間、特に「治安の話」と「市民の自由」の話など、まれな用語とあまり珍しくない用語の使用における議会グループ間の相違を探しています。
14 r  text-mining 

1
mgcv GAMモデルで平滑化を調整する方法
mgcv:gamモデルで平滑化パラメーターを制御する方法を見つけようとしています。 主に固定グリッド上のxおよびy座標の関数としてモデル化しようとしている二項変数に加えて、より小さな影響を持つ他のいくつかの変数があります。過去に、パッケージlocfitと(x、y)値のみを使用して、かなり良いローカル回帰モデルを構築しました。 ただし、他の変数をモデルに組み込んでみて、一般化された加算モデル(GAM)が良い可能性であるように見えました。両方ともGAM機能を持つパッケージgamとmgcvを調べた後、後者を選択しました。メーリングリストスレッドの多くのコメントが推奨しているようです。欠点の1つは、lessやlocfitのようなローカル回帰スムーザーをサポートしていないように見えることです。 はじめに、ちょうど(x、y)座標を使用して、おおよそlocfitモデルを複製しようとしただけです。通常の平滑化とテンソル積平滑化の両方を試しました。 my.gam.te <- gam(z ~ te(x, y), family=binomial(logit), data=my.data, scale = -1) my.gam.s <- gam(z ~ s(x, y), family=binomial(logit), data=my.data, scale = -1) ただし、モデルからの予測をプロットすると、locfitモデルに比べてはるかに滑らかになります。だから、私はモデルをあまり滑らかにしないように調整しようとしています。パラメーターspおよびkを調整しようとしましたが、それらがスムージングにどのように影響するかは明確ではありません。locfitでは、nnパラメーターは使用される近傍のスパンを制御します。値を小さくすると、平滑化が少なくなり、「ウィグリング」が増えます。これにより、二項の結果の確率が急速に変化するグリッド上の一部の領域をキャプチャできます。同様に動作するように、gamモデルを設定するにはどうすればよいですか?
14 r  smoothing  mgcv 

6
Rで識別子によってグループ化されたデータフレームの最初の行を取得する高速な方法[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 個人ごとに複数の観測があるときに年齢と性別を取得するときのように、データセットの最初の行のみを識別子でグループ化する必要がある場合があります。Rでこれを行うための高速(または最速)の方法は何ですか?下のaggregate()を使用しましたが、もっと良い方法があると思います。この質問を投稿する前に、Googleで少し検索し、ddplyを見つけて試しましたが、非常に遅く、データセット(400,000行×16列、7,000の一意のID)でメモリエラーが発生したことに驚きましたが、aggregate()バージョンかなり速かった。 (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # 1 30 1 # 2 40 0 # 2 40 0 # 3 35 1 # 3 35 1 ag <- data.frame(ID=levels(dx$ID)) ag <- merge(ag, …
14 r  dataset  aggregation  plyr 

2
順序データまたは名義データのカテゴリをマージ/削減する方法は?
名義データまたは順序データのカテゴリ数を減らす方法を見つけるのに苦労しています。 たとえば、いくつかの名義因子と順序因子を持つデータセットで回帰モデルを構築するとします。このステップには問題はありませんが、名目上の特徴がトレーニングセットに観測されていないが、その後検証データセットに存在するという状況に遭遇することがよくあります。これは、モデルに(これまでに)目に見えないケースが存在する場合、当然、エラーにつながります。カテゴリを組み合わせたいもう1つの状況は、単純に観測値の少ないカテゴリが多すぎる場合です。 だから私の質問は: 以前の実世界の背景情報に基づいて多くの名義(および順序)カテゴリを組み合わせることが最善かもしれないと思いますが、体系的な方法(Rできればパッケージ)が利用可能ですか? どのようなガイドラインと提案、カットオフしきい値などを作成しますか? 文献で最も人気のあるソリューションは何ですか? 小さな名義カテゴリを新しい「OTHERS」カテゴリに結合する以外の戦略はありますか? 他にも提案がある場合は、お気軽にご連絡ください。

2
任意の分布からp値を計算する
これがばかげた質問ではないことを願っています。任意の連続分布があるとしましょう。統計もあり、この任意の分布を使用して、この統計のp値を取得したいと思います。 Rでは、正規分布のように、分布が組み込み分布の1つに適合する限り、これを行うのは簡単です。しかし、そのような仮定をすることなく、任意の分布でこれを行う簡単な方法はありますか?

2
Rでのdrop1出力の解釈
Rでは、drop1コマンドは適切なものを出力します。 次の2つのコマンドにより、出力が得られます。 example(step)#-> swiss drop1(lm1, test="F") 私のものは次のようになります。 > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value Pr(F) <none> 2105.0 190.69 Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 * Examination 1 53.03 2158.1 189.86 …


2
時系列のペア間の相関(および上記相関の有意性)の計算
2つの時系列SとTがあります。それらは同じ周波数と同じ長さを持っています。 (Rを使用して)このペア間の相関(SとT)を計算し、相関の有意性も計算できるようにしたいので、相関が偶然によるものかどうかを判断できます。 私はRでこれをやりたいと思っており、私を始めるためのポインタ/骨格フレームワークを探しています。

5
Matlab / octaveまたはRは、モンテカルロシミュレーションに適していますか?
私は趣味としてRでモンテカルロを始めましたが、最終的には金融アナリストがMatlabに移行することを勧めました。私は経験豊富なソフトウェア開発者です。しかし、モンテカルロ初心者。感度分析を使用して静的モデルを作成し、後で動的モデルを作成したい。私を導く良いライブラリ/アルゴリズムが必要です。 私には、Rには優れたライブラリがあり、簡単なパスカルのような言語のために、未経験のプログラマーにはmathlabが好まれていると思われます。R言語はスキームに基づいており、これは初心者には難しいですが、私には難しいです。Matlab / Octaveに数値/ライブラリ側の利点がない場合、私はRに固執します。
14 r  matlab  monte-carlo 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.