統計とビッグデータ r

2

@whuberは、1つの時点で多変量結果（、y_2、y_3）をシミュレートする方法を示しました。y 2 y 3y1y1y_1y2y2y_2y3y3y_3 私たちが知っているように、縦断的データはしばしば医学研究で発生します。私の質問は、Rの反復測定多変量結果をシミュレートする方法ですか？たとえば、2つの異なる治療グループの5 つのさまざまな時点でy1y1y_1、y2y2y_2、およびy_3を繰り返し測定しy３y3y_3ます。

9 r repeated-measures simulation

3

auto.arimaはstdエラーで生成されたNaNに警告します

私のデータは、雇用人口の時系列Lと期間、年です。 n.auto=auto.arima(log(L),xreg=year) summary(n.auto) Series: log(L) ARIMA(2,0,2) with non-zero mean Coefficients: ar1 ar2 ma1 ma2 intercept year 1.9122 -0.9567 -0.3082 0.0254 -3.5904 0.0074 s.e. NaN NaN NaN NaN 1.6058 0.0008 sigma^2 estimated as 1.503e-06: log likelihood=107.55 AIC=-201.1 AICc=-192.49 BIC=-193.79 In-sample error measures: ME RMSE MAE MPE MAPE -7.285102e-06 1.225907e-03 9.234378e-04 -6.836173e-05 …

9 r regression arima

1

オフセットでGLMポアソンを予測

これはおそらく基本的な質問だと思います...しかし、私は答えを見つけられないようです。私はGLMをポアソンファミリに適合させてから、予測を確認しようとしましたが、オフセットが考慮されているようです。 model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") レートではなくケースが表示されます... 私も試しました model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) 同じ結果。ただし、mgcvを使用してGAMから予測する場合、予測ではオフセットを考慮します（レートを取得します）。何か不足していますか？

9 r generalized-linear-model prediction offset

1

Rの線形SVMから決定境界を取得する方法

線形SVMモデルの方程式を提供できるパッケージが必要です。現在、私はe1071を次のように使用しています： library(e1071) m = svm(data, labels, type='C', kernel='linear', cost=cost, probability=FALSE, scale=scale) w = t(m$coefs) %*% data[m$index,] #Weight vector b = -model$rho #Offset ただし、どのようにしてe1071::svm()ポジティブクラスとネガティブクラスを選択するのかわかりません。そのため、さまざまなデータセットで混乱する可能性があります。この関数がどのクラスがポジティブでどのクラスがネガティブであるかをどのように決定するか誰でも確認できますか？また、これに適したパッケージはありますか？

9 r svm e1071

3

Rの行列間の相関

cor()およびcor.test()関数の使用に問題があります。 2つの行列（数値のみで、行と列の数は同じ）があり、相関数と対応するp値が欲しいのです。使用するcor(matrix1, matrix2)と、すべてのセルの相関係数が得られます。corの結果として単一の番号が欲しいだけです。さらに、私が行うcor.test(matrix1, matrix2)と次のエラーが発生します Error in cor.test.default(matrix1, matrix2) : 'x' must be a numeric vector 行列のp値を取得するにはどうすればよいですか？ここで、関連付けたい単純なテーブルを見つけます。 http://dl.dropbox.com/u/3288659/table_exp1_offline_MEANS.csv http://dl.dropbox.com/u/3288659/table_exp2_offline_MEANS.csv

9 r correlation

2

SVM入力変数のRで遺伝的アルゴリズム変数選択を実行する方法は？

Rでkernlabパッケージを使用して、データを分類するためのSVMを構築しています。 SVMは適切な精度の「予測」を提供するという点でうまく機能していますが、入力変数のリストは私が望むよりも大きく、さまざまな変数の相対的な重要性についてはわかりません。遺伝的アルゴリズムを実装して、最適に訓練された/最適なSVMを生成する入力変数のサブセットを選択したいと思います。このGA実装を試行するときに使用するRパッケージを選択する際にいくつかの助けが必要です（そしておそらく簡単な疑似例）。私はそこにあるほとんどのR GA / Pパッケージ（RGP、genalg、subselect、GALGO）を見てきましたが、フィットネス関数の一部としてksvm関数を渡し、人口プールとしての可変配列...？正しい方向への助け、考え、または微笑は感謝して受け取られました。ありがとう後の編集で以下に追加されたこれを解決するコード # Prediction function to be used for backtesting pred1pd = function(t) { print(t) ##add section to select the best variable set from those available using GA # evaluation function - selects the best indicators based on miminsied training error …

9 r machine-learning svm genetic-algorithms

1

毎週の季節性の基礎となる、季節ごとに調整された月ごとの成長

副趣味として、私は（特にRを使用して）予測時系列を調査してきました。私のデータでは、1日あたりの訪問数があり、毎日約4年前に遡ります。このデータには、いくつかの明確なパターンがあります。月曜日から金曜日は訪問数が多く（月曜日と火曜日が最高）、土日曜日は大幅に減ります。 1年のうち特定の時期に落ちる（例：米国の祝日の訪問数が大幅に減る、夏の成長が鈍くなる）毎年大幅な成長このデータで次の年を予測でき、季節ごとに調整された月ごとの成長に使用できると便利です。月次ビューで私を失望させる主なものは次のとおりです。特定の月は、他の月よりも月/火が多くなります（それは何年にもわたって一貫していません）。したがって、より多くの平日に発生する月は、それに応じて調整する必要があります。週の番号付けシステムは年によって52〜53に変更されるため、週の調査も困難に思え、それをts処理できないようです。私はその月の平日の平均を取ることを考えていますが、結果の単位は少し奇妙であり（平均平日の訪問数の増加）、それは有効なデータをドロップするでしょう。この種類のデータは時系列で一般的であると思います（たとえば、オフィスビルでの電気使用量はこのようなものかもしれません）、特にRでそれをモデル化する方法について誰かがアドバイスを持っていますか？私が使用しているデータは非常に簡単です、それは次のように始まります： [,1] 2008-10-05 17607 2008-10-06 36368 2008-10-07 40250 2008-10-08 39631 2008-10-09 40870 2008-10-10 35706 2008-10-11 18245 2008-10-12 23528 2008-10-13 48077 2008-10-14 48500 2008-10-15 49017 2008-10-16 50733 2008-10-17 46909 2008-10-18 22467 そして、現在に至るまでこのように続き、全体的な成長傾向、米国の休日の週あたりにいくらか落ち込み、夏の間は成長が全般的に鈍化しています。

9 r time-series seasonality forecasting

2

Rで生存データのウィルコクソン符号順位検定を実行する方法

次のような生存データがあるとします。 obs <- data.frame( time = c(floor(runif(100) * 30), floor((runif(100)^2) * 30)), status = c(rbinom(100, 1, 0.2), rbinom(100, 1, 0.7)), group = gl(2,100) ) 標準のログランクテストを実行するには、 survdiff(Surv(time, status) ~ group, data = obs, rho = 0) 正しい？しかし、他のテストはどうですか？ウィルコクソンの符号付き順位検定、ペト検定、またはフレミング・ハリントン検定をどのように実行できますか？ Rはウィルコクソン検定を実行する可能性を提供しますが、打ち切りを考慮に入れる方法を見つけられませんでした。さらに、この文書では、設定rho = 1によりテストが「Gehan-Wilcoxonテストのペト＆ペト変更」になると述べています。しかし、これはペトテストと同じですか？

9 r survival wilcoxon-signed-rank

4

LaTeX、Sweave、Beamerを学ぶための最も効率的な順序？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 3年前休業。私は、Rコードとggplot2視覚化から繰り返しレポートを作成する方法を学ぶことに非常に興味があります。私はLaTeXが可能な答えであるように思われ、Rでそれを使用するにはほとんどがSweaveを使用します。そして、RからLaTeXへのプレゼンテーションには、Beamerを使用します。私の質問は、最初に何を学ぶべきか、それとも同時に何を学ぶべきかということです。SweaveやLaTeXは知りません。（少なくとも少し）LaTeXを学び、次にSweaveを学ぶべきですか？それとも同時にそれらを学ぶことを提案しますか？あなたの答えをサポートするチュートリアルへのリンクは大歓迎です。

9 r

1

Rのパーティクルフィルター–自明なコード例

Rでパーティクルフィルターを実行する方法の簡単なコード例を探しています。pompパッケージは、状態空間の数学ビットをサポートしているようですが、例は、私などの単純なOO開発者のために、プログラムで従うのが少し難しいです。観測されたデータをpompオブジェクトにロードする方法。ここに例：http : //cran.r-project.org/web/packages/pomp/vignettes/intro_to_pomp.pdf 入力としてノイズのあるデータの1列を含むcsvファイルがあり、それをパーティクルフィルターに通して、出力が推定値である別のcsvファイルにクリーンアップできるようにしたいとします。 y <- read.csv("C:/Dev/VeryCleverStatArb/inputData.csv", header=FALSE) #CSV to Pomp object ??? #Run Particle Filter #Write estimates to csv. サンプルの主な問題は、csvデータをpompオブジェクトにロードすることです。今のところ、非常に単純な状態空間モデルで十分です。 R-好奇心のためのアイデアはありますか？

9 r

2

多項式でglmnetを実行するとエラーが発生する[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、上のトピッククロス検証済みのため。 8か月前に閉鎖。この質問で言及されている問題は、Rパッケージglmnetのバージョン1.7.3で修正されています。私はfamily = multinomialでglmnetを実行する際にいくつかの問題を抱えており、同様の何かに遭遇したり、私が間違っていることを教えたりできるのではないかと思っていました。自分のダミーデータを入力すると、実行時に「apply（nz、1、median）のエラー：dim（X）は正の長さでなければなりません」というエラーが表示されますcv.glmnet。私にとってあまり有益ではありませんでした。 y=rep(1:3,20) #=> 60 element vector set.seed(1011) x=matrix(y+rnorm(20*3*10,sd=0.4),nrow=60) # 60*10 element matrix glm = glmnet(x,y,family="multinomial") #=> returns without error crossval = cv.glmnet(x,y,family="multinomial") #=> Error in apply(nz, 1, median) : dim(X) must have a positive length crossval = cv.glmnet(x,y,family="multinomial",type.measure="class") #=> Error in apply(nz, …

9 r multinomial glmnet

1

生存coxphおよびrms cphとは異なる予測プロット

私はこの例で使用する独自のわずかに拡張されたバージョンの用語プロットを作成しました。ここで見つけることができます。私は以前にSOに投稿しましたが、それについて考えるほど、これはおそらく実際のコーディングよりもCox比例ハザードモデルの解釈に関連していると思います。問題ハザード比プロットを見ると、信頼区間が自然に0になる参照ポイントがあると予想します。これは、からのcph（）を使用する場合であり、からのcoxph（）を使用する場合ではありrms packageませんsurvival package。coxph（）による正しい動作はありますか？そうであれば、参照ポイントは何ですか？また、coxph（）のダミー変数には間隔があり、値は以外ですか？e0e0e^0 例これが私のテストコードです： # Load libs library(survival) library(rms) # Regular survival survobj <- with(lung, Surv(time,status)) # Prepare the variables lung$sex <- factor(lung$sex, levels=1:2, labels=c("Male", "Female")) labels(lung$sex) <- "Sex" labels(lung$age) <- "Age" # The rms survival ddist <- datadist(lung) options(datadist="ddist") rms_surv_fit <- cph(survobj~rcs(age, 4)+sex, data=lung, x=T, y=T) …

9 r survival cox-model

2

Rでような回帰を適合させる方法は？

測定された変数が離散正整数（カウント）であるいくつかの時系列データがあります。時間の経過とともに上昇傾向があるかどうかをテストしたいと思います。独立変数（x）の範囲は0〜500、従属変数（y）の範囲は0〜8です。 y = floor(a*x + b)通常の最小二乗（OLS）を使用してフォームの回帰を当てはめることで、これに答えると思いました。 R（またはPython）を使用してこれを行うにはどうすればよいですか？そのための既存のパッケージはありますか、それとも自分のアルゴリズムを記述した方がよいですか？ PS：これは理想的な手法ではないことはわかっていますが、実際に理解できる比較的単純な分析を行う必要があります。私の背景は数学ではなく生物学です。測定された変数の誤差、および時間の経過に伴う測定値の独立性に関する仮定に違反していることを知っています。

9 r regression python

4

n-1変数を使用してダミー変数を実装する方法は？

4つのレベルを持つ変数がある場合、理論的には3つのダミー変数を使用する必要があります。実際には、これは実際にどのように実行されますか？0-3を使用しますか、1-3を使用し、4を空白のままにしますか？助言がありますか？注：Rで作業します。更新：ADに対応する1〜4を使用する1つの列を使用するとどうなりますか？それはうまくいくか、問題を引き起こしますか？

9 r regression categorical-data categorical-encoding

1

連続する比率の視覚化

4つのカテゴリを持ついくつかの消費者データを視覚化しようとしています。ユーザーはさまざまなカテゴリを自由に切り替えることができます。個人ごとに最後の3つまたは4つのスイッチを視覚化したいと思います。したがって、4つの縦横比が縦棒のプロットから始めます。その後、ビンが小さすぎて使い物にならなくなるまで、各カテゴリーが前の機会に人々が行ったことに分解し、次に64と分解して、16になります。マリメッコチャートと積み上げ棒グラフまたはデンドログラムの間のどこかでうまくいくと思いますが、それが何と呼ばれるかさえわかりません！誰かが私が使用しているプロットのタイプを手伝ってくれるなら、そしてあなたがもっと素敵になりたいのなら、それをRに実装する方法があれば、私はとても感謝します。

9 r data-visualization sankey-diagram

タグ付けされた質問 「r」

タグ付けされた質問「r」