統計とビッグデータ r

4

単純な線形回帰、残差を保存し、残差の分布のヒストグラムを描くと仮定します。おなじみの分布のようなものが得られた場合、エラー項にこの分布があると仮定できますか？たとえば、残差が正規分布に似ていることがわかった場合、母集団の誤差項の正規性を仮定するのは理にかなっていますか？私はそれが賢明だと思いますが、どのようにそれを正当化できますか？^ U Iy=β0+β1x+uy=β0+β1x+uy=\beta_0+\beta_1x+uui^ui^\hat{u_i}

17 r regression residuals

3

Rの時間依存係数-実行方法

更新：別の更新で申し訳ありませんが、分数多項式と競合するリスクパッケージを使用したいくつかの可能な解決策を見つけました。問題私はRにある時間依存係数分析を行う簡単な方法を見つけることができません。変数係数を取り、それを時間依存係数（変数ではない）に入れてから、時間に対する変動をプロットしたいです： βmy_variable=β0+β1∗t+β2∗t2...βmy_variable=β0+β1∗t+β2∗t2...\beta_{my\_variable}=\beta_0+\beta_1*t+\beta_2*t^2... 可能な解決策 1）データセットの分割この例（ラボセッションのパート2）を見てきましたが、別のデータセットの作成は複雑で、計算コストがかかり、あまり直感的ではないようです... 2）ランクの低いモデル-coxvcパッケージ coxvcパッケージには、問題に対処するためのエレガントな方法を提供します-ここだマニュアル。問題は、作成者がパッケージを開発していないことです（最後のバージョンは2007年5月23日以降です）。電子メールでの会話の後、パッケージが機能するようになりましたが、データセットで1回の実行に5時間かかりました（140 000エントリ）、期間の終わりに極端な推定値を提供します。ここで少し更新されたパッケージを見つけることができます-私はほとんどプロット関数を更新しました。それは単に微調整の問題かもしれませんが、ソフトウェアは信頼区間を簡単に提供できず、プロセスは非常に時間がかかるため、他のソリューションを今見ています。 3）timeregパッケージ印象的なtimeregパッケージもこの問題に対処していますが、その使用方法は定かではなく、スムーズなプロットが得られません。 4）分数多項式時間（FPT）モデルアニカ・ブッフホルツは、「治療と予後因子の経時変化の長期的影響の評価」に関する優れた論文を見つけました。彼女は、Sauerbreiらの提案したFPTが時間依存係数に最も適切であると結論付けています。 FPTは時変効果の検出に非常に優れていますが、ランクの削減アプローチでは時変効果の選択が含まれないため、モデルが非常に複雑になります。研究は非常に完了しているように見えますが、私には少し手の届かないところにあります。彼女はたまたまザウアーブレイと仕事をしているので、私も少し不思議に思っています。それは健全に思えますが、mfpパッケージを使用して分析を行うことができると思いますが、どうすればよいかわかりません。 5）cmprskパッケージ私は競合するリスク分析を行うことを考えてきましたが、計算には時間がかかるため、通常のcox回帰に切り替えました。CRRは、時間依存の共変量のオプションをthougあります。 .... cov2 matrix of covariates that will be multiplied by functions of time; if used, often these covariates would also appear in cov1 to give a prop hazards effect plus a …

17 r regression survival cox-model

1

Sweaveとxtableで色付きのテーブルを作成する方法は？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 Sweaveとxtableを使用してレポートを生成しています。テーブルに色を付けたいと思います。しかし、xtableで色付きのテーブルを生成する方法を見つけることができませんでした。他のオプションはありますか？

17 r reproducible-research

2

Rのノンパラメトリックベイズ分析

R階層型ディリクレプロセス（HDP）（最近人気のノンパラメトリックベイジアン手法の1つ）を使用したデータのクラスタリングに関する優れたチュートリアルを探しています。ノンパラメトリックベイジアン分析にはDPpackage（IMHO、利用可能なすべての中で最も包括的な）がありますR。しかし、R NewsHDPをコーディングするのに十分なほど、パッケージリファレンスマニュアルまたはパッケージリファレンスマニュアルに記載されている例を理解できません。任意のヘルプまたはポインタを歓迎します。トピックモデリング用のHDPのC ++実装はここから入手できます（C ++コードについては下をご覧ください）

17 r bayesian clustering nonparametric

6

R：グループごとの相関を計算する

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Rには、クラスラベルC（因子）と2つの測定値M1およびM2を含むデータフレームがあります。各クラス内でM1とM2の相関を計算するにはどうすればよいですか？理想的には、クラスごとに1行、クラスラベルCと相関関係の2列のデータフレームが返されます。

17 r correlation

1

反復測定のための不均衡な混合効果分散分析

手術中に2種類の治療を受けた患者のデータがあります。心拍数への影響を分析する必要があります。心拍数の測定は15分ごとに行われます。患者ごとに手術の長さが異なる場合があるため、各患者は7〜10の心拍数を測定できます。したがって、不均衡な設計を使用する必要があります。Rを使用して分析を行っています。また、ezパッケージを使用して、混合測定ANOVAを繰り返し測定しています。しかし、私は不均衡なデータを分析する方法を知りません。誰でも助けることができますか？データの分析方法に関する提案も歓迎します。更新：提案されたように、lmer関数を使用してデータをフィッティングし、最適なモデルは次のとおりであることがわかりました。 heart.rate~ time + treatment + (1|id) + (0+time|id) + (0+treatment|time) 結果は次のとおりです。 Random effects: Groups Name Variance Std.Dev. Corr id time 0.00037139 0.019271 id (Intercept) 9.77814104 3.127002 time treat0 0.09981062 0.315928 treat1 1.82667634 1.351546 -0.504 Residual 2.70163305 1.643665 Number of obs: 378, groups: subj, 60; time, …

17 r mixed-model repeated-measures lme4-nlme

2

Rのコルモゴロフ-スミルノフ検定について

コルモゴロフ-スミルノフのテスト関数の出力を理解しようとしています（2つのサンプル、両面）。これは簡単なテストです。 x <- c(1,2,2,3,3,3,3,4,5,6) y <- c(2,3,4,5,5,6,6,6,6,7) z <- c(12,13,14,15,15,16,16,16,16,17) ks.test(x,y) # Two-sample Kolmogorov-Smirnov test # #data: x and y #D = 0.5, p-value = 0.1641 #alternative hypothesis: two-sided # #Warning message: #In ks.test(x, y) : cannot compute exact p-value with ties ks.test(x,z) #Two-sample Kolmogorov-Smirnov test #data: x and z …

17 r kolmogorov-smirnov ties

1

Rの密度関数から確率密度関数を見つける/推定する方法

X分布が不明なような変数があるとします。Mathematicaでは、SmoothKernelDensity関数を使用して推定密度関数を得ることができます。この推定密度関数は、「密度」がの結果であると仮定する形式のPDFような値の確率密度関数を計算する関数とともに使用できます。Rにそのような機能があれば良いでしょう。これがMathematicaでの動作です。XPDF[density,X]SmoothKernelDensity http://reference.wolfram.com/mathematica/ref/SmoothKernelDistribution.html 例として（Mathematica関数に基づいて）： data = RandomVariate[NormalDistribution[], 100]; #generates 100 values from N(0,1) density= SmoothKernelDistribution[data]; #estimated density PDF[density, 2.345] returns 0.0588784 ここでは、PDFに関する詳細情報を見つけることができます。 http://reference.wolfram.com/mathematica/ref/PDF.html density(X)Rを使用して密度関数をプロットでき、その使用によりecdf(X)経験的累積分布関数を取得できることを知っていますが、Mathematicaについて説明した内容に基づいてRで同じことを行うことは可能ですか？どんな助けとアイデアも大歓迎です。

17 r pdf cdf

1

Rの混合モデル式でのランダム効果の（1 | id）などのウィルキンソンスタイル表記の起源

次のようなRのモデル式 y ~ x + a*b + c:d は、いわゆるウィルキンソン表記法に基づいています：Wilkinson and Rogers 1973、Symbolic Description of Factorial Models for Variance Analysis。このホワイトペーパーでは、混合モデル（当時は存在しなかった可能性がある）の表記については説明しませんでした。それでlme4、Rで使用される混合モデルの式とRの関連パッケージはどこでしたか y ~ x + a*b + c:d + (1|school) + (a*b||town) から来る？初めて紹介したのはいつですか？彼らのために「ウィルキンソン記法」などの合意された用語はありますか？具体的には次のような用語を参照しています (model formula | grouping variable) (model formula || grouping variable)

16 r mixed-model lme4-nlme notation history

2

ロジスティック回帰設定で損失の二乗を使用すると、ここで何が起こっていますか？

損失の二乗を使用して、玩具データセットのバイナリ分類を試みています。私が使用していmtcarsた透過型を予測するために、データセット、ガロンあたりの利用マイルと体重を。以下のプロットは、異なる色の2種類の透過型データと、異なる損失関数によって生成された判定境界を示しています。二乗損失があるグランドトゥルースラベル（0または1）であり、予測確率である。言い換えれば、私はロジスティック損失を分類設定の平方損失に置き換えています。他の部分は同じです。∑私（y私− p私）2∑私（y私−p私）2\sum_i (y_i-p_i)^2y私y私y_ip私p私p_ip私= ロジット− 1（βTバツ私）p私=ロジット−1（βTバツ私）p_i=\text{Logit}^{-1}(\beta^Tx_i) mtcarsデータを使用したおもちゃの例では、多くの場合、ロジスティック回帰に「類似した」モデルが得られました（ランダムシード0の次の図を参照）。しかし、ある場合（そうする場合set.seed(1)）、二乗損失はうまく機能していないようです。ここで何が起きてるの？最適化は収束しませんか？ロジスティック損失は、二乗損失と比較して最適化が容易ですか？任意の助けをいただければ幸いです。コード d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- # note, this random seed is important for squared loss work # ---------------------------------------------------------------- set.seed(0) x0=runif(3) x=as.matrix(cbind(1,d[,2:3])) y=d$am opt=optim(x0, lossSqOnBinary, …

16 r machine-learning logistic optimization loss-functions

2

optimとglmの残留標準誤差の違い

私はoptim、R関数glmまたはさらにはnlsR関数を取り付けた単純な線形回帰の結果で再現しようとします。パラメーターの推定値は同じですが、残差分散の推定値と他のパラメーターの標準誤差は、特にサンプルサイズが小さい場合は同じではありません。これは、最大尤度アプローチと最小二乗アプローチ間での残差標準誤差の計算方法の違いによるものと思われます（nまたはn-k + 1で除算することは、以下の例を参照）。私はウェブ上の私の読書から、最適化は簡単なタスクではないことを理解していますが、glm使用中に標準誤差の推定値を簡単な方法で再現できるかどうか疑問に思っていましたoptim。小さなデータセットをシミュレートする set.seed(1) n = 4 # very small sample size ! b0 <- 5 b1 <- 2 sigma <- 5 x <- runif(n, 1, 100) y = b0 + b1*x + rnorm(n, 0, sigma) optimで見積もる negLL <- function(beta, y, x) { b0 <- beta[1] b1 …

16 r maximum-likelihood optimization

2

主成分分析を実行する前にデータをログ変換するのはなぜですか？

ここのチュートリアルに従っている：http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/ PCAの理解を深めるために。このチュートリアルでは、Irisデータセットを使用し、PCAの前にログ変換を適用します。次のコードでは、[1]で示唆されているように連続変数に対数変換を適用し、PCAの適用前に変数を標準化するための呼び出しでset centerand scaleequal to TRUEに注意してくださいprcomp。 Irisデータセットの最初の4列で最初にlog関数を使用する理由を説明してください。データを相対的にすることと関係があることは理解していますが、ログ、センター、スケールの正確な機能は混乱しています。上記の参考文献[1]は、VenablesおよびRipley、ModernがS-PLUSで統計を適用した、セクション11.1で簡単に述べています。データは物理的な測定値であるため、適切な初期戦略は対数スケールで作業することです。これは全体にわたって行われました。

16 r pca data-transformation logarithm

2

Rで異常値を検出して予測を行う方法 -時系列分析の手順と方法

私は毎月の時系列データを持っていますが、外れ値を検出して予測を行いたいです。これは私のデータセットのサンプルです。 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 8.00 7.82 7.90 7.93 7.99 7.93 2008 8.46 8.48 9.03 9.43 11.58 12.19 12.23 11.98 12.26 …

16 r time-series forecasting arima outliers

3

ETS（）関数、履歴データと一致しない予測を回避する方法

毎月の予測計算を自動化するために、Rのアルゴリズムに取り組んでいます。特に、予測パッケージのets（）関数を使用して予測を計算しています。それは非常にうまく機能しています。残念ながら、特定の時系列について、私が得る結果は奇妙です。私が使用しているコードを以下で見つけてください： train_ts<- ts(values, frequency=12) fit2<-ets(train_ts, model="ZZZ", damped=TRUE, alpha=NULL, beta=NULL, gamma=NULL, phi=NULL, additive.only=FALSE, lambda=TRUE, lower=c(0.0001,0.0001,0.0001,0.8),upper=c(0.9999,0.9999,0.9999,0.98), opt.crit=c("lik","amse","mse","sigma","mae"), nmse=3, bounds=c("both","usual","admissible"), ic=c("aicc","aic","bic"), restrict=TRUE) ets <- forecast(fit2,h=forecasthorizon,method ='ets') 以下の関連する履歴データセットを見つけてください： values <- c(27, 27, 7, 24, 39, 40, 24, 45, 36, 37, 31, 47, 16, 24, 6, 21, 35, 36, 21, 40, 32, 33, …

16 r time-series forecasting exponential-smoothing

3

Wardの基準でない場合、hclust（）のward.Dはどのアルゴリズムを実装しますか？

オプション "ward.D"（Rバージョン<= 3.0.3の唯一のWardオプション "ward"と同等）で使用されるものは、Ward（1963）クラスタリング基準を実装しませんが、オプション "ward.D2"はその基準（ Murtagh and Legendre 2014）。（http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html）どうやらward.DはWardの基準を適切に実装していないようです。それにもかかわらず、それが生成するクラスタリングに関しては良い仕事をしているようです。ワードの基準でない場合、method = "ward.D"は何を実装しますか？参照資料 Murtagh、F.、およびLegendre、P.（2014）。Wardの階層的凝集クラスタリング手法：どのアルゴリズムがWardの基準を実装していますか？Journal of Classification、31（3）、274-295。

16 r clustering ward

タグ付けされた質問 「r」

タグ付けされた質問「r」