統計とビッグデータ r

3

臨床リハビリデータのデータセットを分析する必要があります。定量化された「インプット」（治療の量）と健康状態の変化との間の仮説に基づく関係に興味があります。データセットは比較的小さい（n〜70）が、両方の時間的変化を反映するデータを繰り返し使用しています。私はRの非線形混合効果モデリングに精通していますが、ここで入力と出力の間の潜在的な「因果関係」関係に興味があり、SEMの反復測定アプリケーションを検討しています RのSEMパッケージ（sam、lavaan、openmx？）のどれが繰り返し測定データに特に適しているか、特に教科書の推奨事項（フィールドの「Pinheiro and Bates」はありますか？）に関するアドバイスをいただければ幸いです。。

10 r repeated-measures panel-data sem

2

カイ二乗の信頼区間

2つの「適合度のカイ2乗」検定を比較するための解決策を見つけようとしています。より正確には、2つの独立した実験の結果を比較します。これらの実験では、著者らは適合度のカイ2乗を使用して、ランダムな推測（期待される周波数）と観測される周波数を比較しました。2つの実験は同じ数の参加者を獲得し、実験手順は同じですが、刺激のみが変更されました。2つの実験結果は、有意なカイ2乗を示しました（式1：X²（18）= 45; p <.0005および式2：X²（18）= 79; p <.0001）。さて、私がやりたいのは、これらの2つの結果に違いがあるかどうかをテストすることです。信頼区間の使用が解決策になると思いますが、これらの結果だけでこれらの信頼区間を計算する方法がわかりません。あるいは、効果の大きさを比較するテスト（コーエンのw）？誰かが解決策を持っていますか？どうもありがとう！ FD

10 r confidence-interval chi-squared

4

Rで変数/機能の選択を行うために相互検証を使用する方法はありますか？

削減したい約70の変数を含むデータセットがあります。私が探しているのは、次の方法でCVを使用して最も有用な変数を見つけることです。 1）ランダムに言う20変数を選択します。 2）stepwise/ LASSO/ lars/ etcを使用して、最も重要な変数を選択します。 3）〜50xを繰り返し、どの変数が最も頻繁に選択されている（削除されていない）かを確認します。これはa randomForestが何をするかという線に沿っていrfVarSelますが、パッケージは因子/分類に対してのみ機能するようであり、連続従属変数を予測する必要があります。私はRを使用しているので、あらゆる提案が理想的にそこで実装されます。

10 r cross-validation feature-selection random-forest stepwise-regression

1

勾配木ブースティングにおける木サイズ

フリードマンによって提案された勾配木ブースティングはJ、基本学習器として末端ノード（=葉）を持つ決定木を使用します。正確にJノードを持つツリーを成長させる方法はいくつかあります。たとえば、深さ優先の方法または幅優先の方法でツリーを成長させることができます... J勾配木ブースティングのために正確に終端ノードを持つ木を成長させる方法は確立されていますか？私はRのgbmパッケージのツリー成長手順を調べましたが、それは深さ優先の方法でツリーを拡張し、エラーの改善に基づくヒューリスティックを使用して、左または右の子ノードを拡張するかどうかを選択します-それは正しいですか？

10 r cart boosting

4

Rのsummary.lmオブジェクトのLaTeX出力-テーブル外の情報を表示している間[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 3年前休業。これは基本的なことのように思えましたが、オンラインで解決策を見つけることができないので、何が欠けているのか疑問に思いました。 Sweave（.Rnw）ドキュメント内にlmサマリーオブジェクトの出力を含めたいです。私は、summary.lmをそのまま出力するか、xtable / Hmiscパッケージを（xtableまたはlatexコマンドを使用して）使用できます。テーブルの外から利用できる要約情報も提供するxtableのようなものはありますか？（、F統計など...？）R2R2R^2

10 r regression

1

Rのfdaパッケージを使用して新しい曲線からの応答を予測する

基本的には、いくつかの曲線を使用してスカラー応答を予測するだけです。私は（fdaパッケージのfRegressを使用して）回帰を行っていますが、結果を新しい曲線セット（予測用）に適用する方法がわかりません。 N = 536の曲線と536のスカラー応答があります。これまでに行ったことは次のとおりです。カーブのベースを作成しました。ペナルティを導入するためにfdParオブジェクトを作成しました指定したペナルティで選択したペナルティでカーブを滑らかにするために、smooth.basisを使用してfdオブジェクトを作成しました。私はfRegress（）を使用して回帰を実行し、スカラー応答の曲線を回帰しました。さて、私がやりたいのは、その回帰を使用して、私が持っている新しいデータセットの予測を生成することです。これを行う簡単な方法を見つけることができないようです。乾杯

10 r functional-data-analysis

2

Coxモデルを使用してRでROC分析を行う方法

いくつかのCox回帰モデルを作成しました。これらのモデルのパフォーマンスを確認したいと思います。ROC曲線またはc統計が、この記事で使用しているのと同じように役立つと思います。 JNアーミテージとJHファンデルムーレン、「Royal College of Surgeons Charlsonスコアによる管理データを使用した外科患者の共存症の特定」、British Journal of Surgery、vol。97、num。5、ss。772-781、Maj 2010。アーミテージはロジスティック回帰を使用しましたが、サバイバルパッケージのモデルを使用できるかどうか、サバイバル ROCはこれが可能であるというヒントを示していますが、通常のCox回帰でそれを機能させる方法を理解できません。この例についてROC分析を行う方法を誰かに教えてもらえれば幸いです。 library(survival) data(veteran) attach(veteran) surv <- Surv(time, status) fit <- coxph(surv ~ trt + age + prior, data=veteran) summary(fit) 可能であれば、生のc-statics出力と素敵なグラフの両方に感謝しますありがとう！更新回答ありがとうございます。@Dwin：私はあなたの答えを選択する前に、私がそれを正しく理解していることを確認したいと思います。 DWinの提案によると、私が理解している計算： library(survival) library(rms) data(veteran) fit.cph <- cph(surv ~ trt + age + prior, data=veteran, x=TRUE, …

10 r survival roc

4

糖尿病のSVM分類の改善

私はSVMを使用して糖尿病を予測しています。この目的でBRFSSデータセットを使用しています。データセットの次元はであり、歪んでいます。ターゲット変数のs のパーセンテージはで、sは残りの構成します。11 ％89 ％432607×136432607×136432607 \times 136Y11%11%11\%N89%89%89\% データセットの独立変数の15うち、使用しているのは私だけです136。データセットを減らす理由の1つは、NAs を含む行が省略されたときにトレーニングサンプルを増やすことでした。これらの15変数は、ランダムツリー、ロジスティック回帰などの統計的手法を実行し、結果のモデルからどの変数が重要であるかを見つけた後に選択されました。たとえば、ロジスティック回帰を実行した後p-value、最も重要な変数を並べ替えるために使用しました。変数の選択を行う私の方法は正しいですか？への提案は大歓迎です。以下は私のR実装です。 library(e1071) # Support Vector Machines #-------------------------------------------------------------------- # read brfss file (huge 135 MB file) #-------------------------------------------------------------------- y <- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv") indicator <- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3", "X_RFHYPE5", "X_RFCHOL", "RACE2", "X_SMOKER3", "X_AGE_G", "X_BMI4CAT", "X_INCOMG", "X_RFDRHV3", "X_RFDRHV3", "X_STATE"); target <- "DIABETE2"; …

10 r classification svm feature-selection e1071

6

2つの異なるランダムフォレストモデルのR-2乗を比較する

RのrandomForestパッケージを使用してランダムフォレストモデルを開発し、サンプルよりも多くの予測子を持つ「広い」データセットで継続的な結果を説明しようとしています。具体的には、1つのRFモデルをフィッティングして、重要と思われる75個までの予測変数のセットから手順を選択できるようにしています。以前にここに投稿したアプローチを使用して、予約済みテストセットの実際の結果をモデルがどの程度予測できるかをテストしています。 ...またはR： 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) しかし、これで追加できる〜25の予測変数が追加されました。〜100の予測子のセットを使用すると、R²が高くなります。これを統計的にテストしたいのですが、言い換えると、〜100の予測子のセットを使用した場合、モデルのテストは、〜75の予測子を使用したモデルの近似よりもデータのテストで大幅に優れています。つまり、RFモデルのテストから得られたR²は、完全なデータセットに適合し、削減されたデータセットでのRFモデルのテストから得られたR²よりも大幅に高くなります。これはパイロットデータであり、追加の25の予測子を取得するのは高価であり、大規模な追跡調査でこれらの予測子を測定するために支払う必要があるかどうかを知る必要があるため、これは私にとってテストにとって重要です。なんらかのリサンプリング/順列アプローチを考えているのですが、何も思い浮かびません。

10 r machine-learning hypothesis-testing model-selection random-forest

3

データポイントの平均化による2つの時系列の結合

Mean Squared Prediction Errorを最小化することにより、時系列データセットの予測とバックキャスト（つまり過去の予測値）を1つの時系列に結合したいと思います。 2001年から2010年までの時系列があり、2007年のギャップがあるとします。2001年から2007年のデータ（赤い線と呼ばれ）を使用して2007年を予測し、2008年から2009年のデータ（水色）を使用してバックキャストすることができました。行と呼びます）。Y bYfYfY_fYbYbY_b とデータポイントを、されたデータポイントY_i に結合したいとます。理想的には、平均二乗予測誤差（MSPE）を最小にするような重みを取得したいと考えています。これが不可能な場合、2つの時系列のデータポイント間の平均をどのように見つけることができますか？Y b w Y iYfYfY_fYbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 簡単な例として： tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 …

10 r time-series forecasting data-imputation

5

2文字の組み合わせの視覚化

SOに関するこの質問への回答では、約125の1文字から2文字の名前のセットが返されました。https : //stackoverflow.com/questions/6979630/what-1-2-letter-object-names-conflict-with-existing -r-objects [1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C" [14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv" [27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E" [40] "el" "ES" "F" …

10 r data-visualization

1

混合モデルの予測子として時間を含めることはできますか？

時間は回帰（gamを含む）の予測子として使用するべきではないと常に信じていました。なぜなら、傾向そのものを単に「説明」するからです。研究の目的が、たとえば動物の活動の変動を説明する温度などの環境パラメータを見つけることである場合、時間はどのように役立つのでしょうか。測定されていないパラメータのプロキシとして？港湾魚類の活動データの時間のいくつかの傾向をここで見ることができます：-> GAMMを行うときに時系列のギャップを処理する方法？私の問題は、モデルに時間を含めると（ユリウス日で測定）、他のすべてのパラメーターの90％が重要でなくなる（mgcvからのts収縮がよりスムーズになる）。私がタイムアウトを残した場合、それらのいくつかは重要です... 問題は、予測変数として時間を許可されているか（多分必要なのか？）、それとも分析をめちゃくちゃにしているのでしょうか。事前に感謝します

10 r time-series mixed-model nonlinear-regression

2

2つのデータセットのアンダーソンダーリング適合度検定はありますか？

ad.test（）が正常性のテストに使用できることは知っています。 ad.testで2つのデータサンプルの分布を比較することはできますか？ x <- rnorm(1000) y <- rgev(2000) ad.test(x,y) 2つのサンプルでアンダーソンダーリング検定を実行するにはどうすればよいですか？

10 r goodness-of-fit

6

クラウドで実行されているRセッションを操作する最良の方法

ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。私は、生体導体AMIの修正バージョンを使用して、Amazon EC2でRを実行しています。現在、私はputtyを使用してサーバーにSSHで接続し、コマンドラインからRを開始してから、スクリプトをnotepad ++からputtyセッションにコピーして貼り付けています。事は、私はカットアンドペーストが嫌いです。それは石器時代を感じており、コードをめちゃくちゃにする奇妙なバッファリングの問題をときどき得ます。RStudioはマルチコアをサポートしていないため使用できません。これを行うためのよりエレガントな方法は何ですか？ /編集：すべてのすばらしい提案をありがとう。とりあえず、doRedisバックエンドでforeachを使用するように切り替えました。これは、Mac、PC、およびRStudioを介したAmazonでうまく機能します。このスイッチは、「foreach 」を使用して「lapply」をエミュレートする関数を作成する方法を学んだら、とても簡単でした。（また、doRedisは素晴らしいです！）

10 r

2

Rによる二分データの因子分析の推奨手順

二分変数（0 =はい、1 =いいえ）で構成されるデータセットに対して因子分析を実行する必要があり、正しい方向に進んでいるかどうかわかりません。を使用しtetrachoric()て、実行する相関行列を作成しますfa(data,factors=1)。結果はMixFactorを使用したときに受け取る結果に非常に近いですが、同じではありません。これは大丈夫ですか、それとも別の手順をお勧めしますか？なぜfa()仕事とfactanal()エラーが発生しますか？（Fehler in solve.default(cv) : System ist für den Rechner singulär: reziproke Konditionszahl = 4.22612e-18）

10 r factor-analysis psychometrics binary-data

タグ付けされた質問 「r」

タグ付けされた質問「r」