統計とビッグデータ r

3

Rではlm()、次のように関数を呼び出すと、 lm.1 = lm(response ~ var1 + var2 + var1 * var2) summary(lm.1) これは私と応答変数の線形モデル与えvar1、var2およびそれらの間の相互作用を。しかし、相互作用の項はどの程度正確に数値で解釈されますか？ドキュメントでは、これはとの間の「クロス」であるvar1と述べていますが、var2正確には「クロス」が何であるかについての説明はありませんでした。 2つの変数間の相互作用を組み込むためにRが計算している正確な数値を知ることは私にとって役立ちます。

9 r regression

1

ロジスティック回帰モデル変数のp値の意味

だから私はRでロジスティック回帰モデルを使っています。統計はまだ初めてですが、回帰モデルについて少し理解できたように思いますが、それでも気になることがいくつかあります。リンクされた画像を見ると、私が作成したサンプルモデルのRプリントの概要が表示されています。このモデルは、データセット内の電子メールがrefoundか（バイナリ変数される場合は、予測しようとしているisRefound）とデータセットが密接に関連する2つの変数が含まれているisRefound、すなわち、next24およびnext7daysこれらはまた、バイナリであり、メールが次にクリックされる場合は教えてくれ- 24時間/ログの現在のポイントから次の7日間。高いp値は、この変数がモデル予測に与える影響がかなりランダムであることを示しているはずですよね？これに基づいて、これらの2つの変数が計算式から外されている場合、モデル予測の精度が10％未満に低下する理由がわかりません。これらの変数の重要度が非常に低い場合、それらをモデルから削除すると大きな影響があるのはなぜですか？よろしくお願いします、リッキーフォックス編集：最初に私はnext24だけを削除しましたが、これはcoefがかなり小さいので影響が少ないはずです。予想通り、ほとんど変更されていません-そのための写真をアップロードしないでください。 next7daysを削除すると、モデルに大きな影響がありました：AIC 200kアップ、精度16％まで、再現率73％まで

9 r regression logistic p-value interpretation

2

ARIMA予測、季節性と傾向、奇妙な結果

ARIMAモデルを使用した予測に足を踏み入れているとき、季節性とドリフトに適合するARIMAに基づいて予測を改善する方法を理解しようとしています。私のデータは次の時系列です（3年以上、明確な上昇傾向と目に見える季節性があり、ラグ12、24、36の自己相関ではサポートされていないようです）。 > bal2sum3years.ts Jan Feb Mar Apr May Jun Jul Aug 2010 2540346 2139440 2218652 2176167 2287778 1861061 2000102 2560729 2011 3119573 2704986 2594432 2362869 2509506 2434504 2680088 2689888 2012 3619060 3204588 2800260 2973428 2737696 2744716 3043868 2867416 Sep Oct Nov Dec 2010 2232261 2394644 2468479 2816287 2011 2480940 …

9 r time-series forecasting arima seasonality

1

1つのレベルと他のレベルの平均との間の差のコントラストマトリックス（R）を指定する方法は？

私はこのように見えることが回帰モデルを有する：Y= β0+ β1バツ1+ β2バツ2+ β３バツ３+ β12バツ1バツ2+ β13バツ1バツ３+ β123バツ1バツ2バツ３Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y = \beta_0+\beta_1X_1 + \beta_2X_2 + \beta_3X_3 +\beta_{12}X_1X_2+\beta_{13}X_1X_3+\beta_{123}X_1X_2X_3 ...またはR表記： y ~ x1 + x2 + x3 + x1:x2 + x1:x3 + x1:x2:x3 とX 2がカテゴリー変数で、X 3が数値であるとしましょう。複雑なのは、X 1に3つのレベルX 1 a、X 1 b、X 1 cがあり、標準的なコントラストの代わりに、テストする必要があることです。バツ1X1X_1バツ2X2X_2バツ３X3X_3バツ1X1X_1バツ1 a、X1 b、X1 cX1a,X1b,X1cX_{1a}, X_{1b}, X_{1c} レベルについてインターセプトか有意レベルの平均切片は異なるX 1 、BおよびX 1個のC。バツ1 aX1aX_{1a}バツ1 bX1bX_{1b}バツ1 …

9 r contrasts

3

k-meansのクラスターの選択：1クラスターの場合

kmeansを使用したクラスタリングが適切かどうかを判断するための良い方法を知っている人はいますか？つまり、サンプルが実際に均質である場合はどうなりますか？（Rのmclustを介した）混合モデルのようなものが1：kクラスターの場合の適合統計を提供することを知っていますが、kmeansを評価するすべての手法には少なくとも2つのクラスターが必要であるようです。 kmeansの1と2のクラスターケースを比較する手法を知っている人はいますか？

9 r clustering k-means

1

カテゴリー変数を使用したロジスティック回帰のデータのシミュレーション

私はロジスティック回帰のテストデータを作成しようとしていましたが、この投稿「ロジスティック回帰の人工データをシミュレートする方法」を見つけました。これは良い答えですが、連続変数のみを作成します。リンクと同じ例で、yに関連付けられた5レベルのカテゴリカル変数x3（ABCDE）はどうですか？

9 r logistic simulation

3

行列乗算を使用してバイナリデータのJaccardまたはその他の関連係数を計算する

行列の乗算を使用してJaccard係数を計算する可能な方法があるかどうかを知りたいです。私はこのコードを使用しました jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } これはRで実装しても問題ありません。ダイスの類似性を1つ作成しましたが、谷本/ Jaccardで行き詰まりました。誰でも手伝ってくれる？

9 r matrix binary-data association-measure similarities

1

不明なp値の計算

私は最近Rスクリプトをデバッグしていて、非常に奇妙な何かを見つけました、著者は独自のp値関数を定義しました pval <- function(x, y){ if (x+y<20) { # x + y is small, requires R.basic p1<- nChooseK(x+y,x) * 2^-(x+y+1); p2<- nChooseK(x+y,y) * 2^-(x+y+1); pvalue = max(p1, p2) } else { # if x+y is large, use approximation log_p1 <- (x+y)*log(x+y) - x*log(x) - y*log(y) - (x+y+1)*log(2); pvalue<-exp(log_p1); } return(pvalue) …

9 r hypothesis-testing p-value

2

Rの区間打ち切りCox比例ハザードモデル

区間打ち切り生存時間を前提として、区間打ち切りCox PHモデルをどのように実行しRますか？rseek検索はintcox、Rリポジトリに存在しないパッケージを表示します。パッケージcoxph内の関数がsurvival区間打ち切り生存データを処理できないことはほぼ間違いありません。また、データを代入してcoxph関数を使用したくありません。この方法は、区間打ち切りの不確実性を無視しているため、係数の標準誤差を過小評価します。

9 r survival cox-model interval-censoring

2

Rで単純な指数平滑法をどのように使用しますか？

私はRの初心者です。R 予測の予測パッケージでsesを使用する方法を説明してもらえますか？初期期間の数と平滑化定数を選択したいと思います。 d <- c(3,4,41,10,9,86,56,20,18,36,24,59,82,51,31,29,13,7,26,19,20,103,141,145,24,99,40,51,72,58,94,78,11,15,17,53,44,34,12,15,32,14,15,26,75,110,56,43,19,17,33,26,40,42,18,24,69,18,18,25,86,106,104,35,43,12,4,20,16,8) 70期間ありますが、初期に40期間、サンプル外に30期間を使用したいと思います。 ses(d, h=30, level=c(80,95), fan=FALSE,initial=c("simple"), alpha=.1) それが正しいか？

9 r time-series forecasting

4

回帰用のボックスコックス変換

1つの予測子（たとえば（x、y）など）を使用して、いくつかのデータに線形モデルを適合させようとしています。データは、xの値が小さい場合、y値は直線にぴったりとフィットしますが、x値が増加すると、y値はより変動しやすくなります。そのようなデータの例を次に示します（Rコード） y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) 以下に示すように、単純に線形近似を行うよりも、データをより適切に近似できる電力変換（おそらくボックスコックス）が存在するかどうか知りたいです。 fit = lm(y ~ x)

9 r regression variance data-transformation

4

20年分の日次データを時系列にプロットする方法

次のデータセット：https : //dl.dropbox.com/u/22681355/ORACLE.csvがあり、「Open」の「Date」による毎日の変化をプロットしたいので、次のようにしました： oracle <- read.csv(file="http://dl.dropbox.com/u/22681355/ORACLE.csv", header=TRUE) plot(oracle$Date, oracle$Open, type="l") そして私は以下を取得します：これは明らかにこれまでで最も良いプロットではないので、そのような詳細なデータをプロットするときに使用する適切な方法は何でしょうか。

9 r data-visualization

2

グループ内の最大の貢献者を決定する

統計についてはあまり知りませんので、ご容赦ください。1000人の労働者のセットがあるとします。私は最も困難な労働者が誰であるかを知りたいのですが、1時間に相当する1時間から100人のグループで行われる作業量しか測定できません。各労働者が常にほぼ同じ量の作業を行うと仮定すると、多数の試行と組み合わせで、最も勤勉な人によって私の労働者をランク付けできますか？注：これは単なる比喩なので、実際にテストを実行することについて心配しないでください。大量のデータセットがすでにあると仮定してください。編集：「各労働者が常にほぼ同じ量の仕事をすることを想定している」と私が言うとき、私は各個人が日常的にほぼ同じ量の仕事をすることを意味します。したがって、Joeyは毎日約100単位の作業を行い、Gregは約50の作業を行います。問題は、グループで行われた作業単位の数しか観察できないことです。その他の編集：一度に作業する労働者の数と作業頻度について。同時に働く労働者の数はいくらでもあり得ます。一部の労働者はおそらく他の労働者よりもはるかに多く働くことになります。つまり、一部の労働者はほぼ90％の時間勤務し、他の労働者はほとんど勤務しないと想定できます。私はそれが難しいことを知っていますが、私は非常に大きなデータセットを持っているので、それが少し簡単になることを願っています。 1時間ごとに、どのワーカーが作業しているか、どのくらいの作業が完了したかがわかります。その情報から、誰が最も多くの仕事をしているのかを知りたいのです。データがJSON形式の場合、次のようになります。 [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] }, { "work_done": 432, "Workers": [ "steve", "joe", "andy"] }, { "work_done": 59042, "Workers": [ "bob", "aaron", "michelle", "scott", "henry" ] }, ... ]

9 r regression data-mining

3

発生率の比較

2つのグループ（1つは疾患なし、もう1つは疾患なし）間の発生率と比較したいと思います。発生率比（IRR）、つまり発生率グループB /発生率グループAを計算し、この率が1に等しいかどうかをテストし、最後にIRRの95％CI間隔を計算することを計画していました。私は本（Rosner's Fundamentals of Biostatistics）で95％CIを計算する方法を見つけました。 exp[log(IRR)±1.96(1/a1)+(1/a2)−−−−−−−−−−−−√]exp⁡[log⁡(IRR)±1.96(1/a1)+(1/a2)]\exp\left[\log(\text{IRR}) \pm 1.96\sqrt{(1/a_1)+(1/a_2)}\right] ここで、とはイベントの数です。しかし、この近似は十分に大きいサンプルサイズに対してのみ有効であり、私が持っているイベントの数は小さいと思います（たぶん、全体の比較では問題ありません）。a 2a1a1a_1a2a2a_2 だから私は別の方法を使うべきだと思います。私はRとexactciパッケージを使用していて、おそらく使用できることを発見しましたpoisson.test()。ただし、この関数には、両側のp値を定義するための3つの方法があります。中央、最小、およびブレーカーです。だから私の質問は：ポアソン率の比較テストを使用して2つの発生率比を比較することは正しいですか？ exactciパッケージのRでpoisson.test関数を使用する場合、どの方法が最適ですか？ビネットのためexactciは言います： central：は、上記の1で区切られた片側p値の最小値の2倍です。「central」という名前は、中心間隔である関連付けられた反転収束間隔によって動機付けられます。つまり、真のパラメーターがは、100（1-）％の信頼区間の下（上）テールよりも小さい（大きい）確率です。これは、Hirji（2006）によってTST（2回の小さいテール法）と呼ばれています。αα/2α/2\alpha/2αα\alpha minlike：観測された尤度以下の尤度を持つ結果の確率の合計です。これはHirji（2006）によってPB（確率ベース）メソッドと呼ばれています。ブレーカー：観測されたテールの小さい確率と、観測されたテールの確率を超えない反対側のテールの最小確率を組み合わせます。「ブレーカー」という名前は、コンデンス間隔の関連メソッドを包括的に研究するブレーカー（2000）が動機となっています。これはHirji（2006）によってCT（combined tail）法と呼ばれています。私のデータは： Group A: Age group 1: 3 cases in 10459 person yrs. Incidence rate: 0.29 Age group 2: 7 cases in 2279 person yrs. Incidence rate: 3.07 Age …

9 r poisson-distribution epidemiology incidence-rate-ratio

2

regsubsetの計算、解釈、およびモデル選択手順に関する一般的な質問

を使用してモデルを選択したいregsubsets()。私はolympiadatenと呼ばれるデータフレームを持っています（アップロードされたデータ：http : //www.sendspace.com/file/8e27d0）。最初にこのデータフレームを添付してから分析を開始します。私のコードは次のとおりです。 attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2) summary(a) plot(a,scale="adjr2") summary(lm(Gesamt~ExpHealth)) プロットのスクリーンショット：ここでの問題は、「手動で」最適なモデルをもう一度フィットさせて確認したいのですが、調整されたRの2乗の値がregsubsetsの出力と同じではないということです。これは、他のモデルにも当てはまります。たとえば、グラフィックで最も単純なモデルを実行するとします。 summary(lm(Gesamt~ExpHealth)) 図は、約0.14の調整済みR二乗が必要であることを示していますが、出力を見ると、0.06435の値を取得しています。これは次の出力ですsummary(lm(Gesamt~ExpHealth))： Call: lm(formula = Gesamt ~ ExpHealth) Residuals: Min 1Q Median 3Q Max …

9 r multiple-regression model-selection

タグ付けされた質問 「r」

タグ付けされた質問「r」