統計とビッグデータ regression

1

私はこれをmathoverflowに投稿しましたが、誰も答えていません：統計的に有意なコントラストを識別するSchefféの方法は広く知られています。コントラスト手段の間では、、iは= 1 、... 、RのRの集団は、線形結合であるΣのR iは= 1、C I μ IここでΣ R I = 1、C iは = 0をμiμi\mu_ii=1,…,ri=1,…,ri=1,\ldots,rrrr∑ri=1ciμi∑i=1rciμi\sum_{i=1}^r c_i \mu_i∑ri=1ci=0∑i=1rci=0\sum_{i=1}^r c_i=0、コントラストのスカラー倍数は本質的に同じコントラストであるため、コントラストのセットは射影空間であると言えます。シェッフェの方法は言う帰無仮説をテストするすべてのこれらの間のコントラスト集団がある0を、そして有意水準の与えられたαを、確率で帰無仮説拒否α帰無仮説が真であることを考えると。帰無仮説が棄却された場合、Schefféは、彼のテストがどのコントラストが0と大きく異なるかを教えてくれると指摘します（私がリンクしているWikipediaの記事ではわかりません）。rrr000αα\alphaαα\alpha000 別の種類の状況で似たようなことができるかどうか知りたいです。単純な線形回帰モデルを検討し、どこがε I〜I 。私は。d 。N （0 、σ 2）、iが= 1 、... 、N。Yi=α+βxi+εiYi=α+βxi+εiY_i = \alpha + \beta x_i + \varepsilon_iεi∼i.i.d.N(0,σ2)εi∼i.i.d.⁡N(0,σ2)\varepsilon_i\sim\operatorname{i.i.d.}N(0,\sigma^2)i=1,…,ni=1,…,ni=1,\ldots,n 私が考えたい帰無仮説は、異なる種類のコントラストに関するものです。それは部分集合が存在しないと言うようにE （Y I）= α 1 + β X 私用I ∈ AおよびE （Y I）= …

12 regression hypothesis-testing contrasts np

2

Rのlmとaovで報告されたp値の差

以下aovとlm呼び出しのp値の違いは何ですか？違いは平方和の計算の種類が異なるだけですか？ set.seed(10) data=rnorm(12) f1=rep(c(1,2),6) f2=c(rep(1,6),rep(2,6)) summary(aov(data~f1*f2)) summary(lm(data~f1*f2))$coeff

12 r regression anova linear-model sums-of-squares

3

ランダムフォレストによるカウントデータの予測

ランダムフォレストをトレーニングして、カウントデータを適切に予測できますか？これはどのように進みますか？私は非常に広範囲の値を持っているので、分類は実際には意味をなしません。回帰を使用する場合、結果を切り捨てますか？私はここでかなり迷っています。何か案は？

12 r regression random-forest prediction count-data

3

相関係数または決定係数は、回帰直線に沿った値の割合に関連していますか？

相関rrrは、2つの変数間の線形関連性の尺度です。決定係数は、1つの変数の変動がどれだけ他の変数の「説明」できるかを示す尺度です。r2r2r^2 たとえば、が2つの変数間の相関である場合、です。したがって、一方の変動の64％は、他方の違いによって説明できます。正しい？r 2 = 0.64r=0.8r=0.8r = 0.8r2=0.64r2=0.64r^2 = 0.64 私の質問は、記載されている例では、次のステートメントのいずれかが正しいですか？値の64％が回帰直線に沿っています値の80％が回帰直線に沿って落ちます

12 regression correlation r-squared

1

Rの反復測定による線形回帰

反復測定設計のために、R inで線形回帰を実行する方法を理解できませんでした。で前の質問（まだ未回答）には使用しないように私に示唆されたlmのではなく混合モデルを使用します。私lmは次のように使用しました： lm.velocity_vs_Velocity_response <- lm(Velocity_response~Velocity*Subject, data=mydata) （データセットの詳細については、上記のリンクをご覧ください）ただし、インターネット上で、線形回帰分析の実行方法を示すRコードの例を見つけることができませんでした。私が欲しいのは、一方でデータにフィットする線でデータをプロットし、他方でモデルの有意性の検定のための値とp値です。R2R2R^2 いくつかの提案を提供できる人はいますか？Rのコード例はどれも非常に役立ちます。編集これまでに受け取った提案によると、2つの変数Velocity_response（アンケートから派生）とVelocity（パフォーマンスから派生）の間に線形関係があるかどうかを理解するために、データを分析するソリューションは次のようになります。 library(nlme) summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) 要約の結果はこれを与えます： > summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) Linear mixed-effects model fit by REML Data: scrd AIC BIC logLik 104.2542 126.1603 -30.1271 Random effects: Formula: ~1 | Subject (Intercept) Residual StdDev: …

12 r regression mixed-model repeated-measures

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

を2乗すると説明付きの分散が得られるのはなぜですか？

これは基本的な質問かもしれませんが、なぜ回帰モデルの値を単純に二乗して説明された分散の図を得ることができるのか疑問に思っていましたか？RRR 私は理解して係数は、関係の強さを与えることができますが、私は、この値を二乗すると説明された分散の尺度を与える方法を単に理解していません。RRR これの簡単な説明はありますか？これを手伝ってくれてありがとう！

12 regression correlation r-squared

1

回帰モデルで変数をどのように選択しますか？

変数選択の従来のアプローチは、新しい応答の予測に最も寄与する変数を見つけることです。最近、私はこれに代わるものを知りました。治療の効果を決定する変数のモデリングでは、たとえば医薬品の臨床試験などで、変数は定性的に相互作用していると言われています他の事柄を固定したまま、その変数の変化が治療が最も効果的である変化を生み出すことができるならば、治療で。これらの変数は常に効果を強力に予測するものではありませんが、個々の患者の治療を決定する際に医師にとって重要な場合があります。博士論文で、Lacey Gunterは、予測に基づいて選択を行うアルゴリズムでは見落とされる可能性のあるこれらの定性的に相互作用する変数を選択する方法を開発しました。最近、ロジスティック回帰モデルやコックス比例ハザード回帰モデルなどの他のモデルにこれらの方法を拡張することで彼女と協力しました。 2つの質問があります。これらの新しい方法の価値についてどう思いますか？従来の方法の場合、どのアプローチが好まれますか？AIC、BIC、Mallows Cp、Fなどの基準は、変数を段階的、順方向、逆方向に入力または削除するためにテストします... これに関する最初の論文は、L。Gunter、J、Zhu、およびMurphy、SA（2009）で発表されました。定性的相互作用の変数選択。統計的手法 doi：10、1016 / j.stamet.2009.05.003。次の論文は、Gunter、L。、Zhu、J.およびMurphy、SA（2011）に掲載されました。家族ごとの誤り率を制御しながら個別化医療における質的相互作用の可変選択。Journal of Biopharmaceutical Statistics 21、1063-1078。次のものは、変数選択に関する特別号に掲載されましたGunter、L.、Chernick、MR and Sun、J.（2011）。治療選択に対する回帰における変数選択のための簡単な方法。パキスタンジャーナルオブ統計とオペレーションズリサーチ 7：363-380。論文は雑誌のウェブサイトで見つけることができます。記事を購入する必要があります。これらの記事のPDFファイルがあります。レイシーと私は、このトピックに関するモノグラフを完成させたばかりで、今年後半にSpringerBriefとして公開されます。

12 regression feature-selection

2

ロジスティック回帰係数の分析

ロジスティック回帰係数のリストを次に示します（最初のものは切片です） -1059.61966694592 -1.23890500515482 -8.57185269220438 -7.50413155570413 0 1.03152408392552 1.19874787949191 -4.88083274930613 -5.77172565873336 -1.00610998453393 インターセプトが非常に低く、実際には0に等しい係数を持っているのがおかしいと思います。これをどのように解釈するかは完全にはわかりません。0は、特定の変数がモデルにまったく影響を与えないことを示していますか？しかし、自分の列を入力することによって作られるインターセプトは、突然本当に重要ですか？または、私のデータはただがらくたであり、モデルは適切に適合できません。

12 regression logistic

1

Rの部分最小二乗回帰：標準化されたデータのPLSが相関の最大化と同等ではないのはなぜですか？

私は部分最小二乗（PLS）が非常に新しくplsr()、plsパッケージ内のR関数の出力を理解しようとしています。データをシミュレートしてPLSを実行します。 library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y) p <- plsr(yy ~ xx1+xx2, ncomp=1) 私は次の数字と期待していましたaaabbb > ( w <- loading.weights(p) ) Loadings: Comp 1 xx1 0.723 xx2 0.690 Comp 1 SS …

12 r regression partial-least-squares

2

相互検証と順序ロジスティック回帰

順序ロジスティック回帰の相互検証を理解しようとしています。ゲームの目的は、分析で使用されるモデルを検証することです... 最初に、おもちゃのデータセットを作成します。 set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 # P( y ≤ i ) is given by logit^{-1} ( a[i]+x ) p <- outer(a,x, function(a,x) 1/(1+exp(-a-x)) ) # computing the …

12 regression cross-validation ordered-logit rms

1

ロジスティック回帰のHosmer-LemeshowとAIC

Hosmer-Lemeshowが適合の欠如を示しているが、AICがすべてのモデルの中で最も低い場合....このモデルを引き続き使用する必要がありますか？変数を削除しても、Hosmer-Lemeshow統計は重要ではありません（つまり、適合度が著しく低下することはありません）。しかし、AICは増加します。編集：一般的に、異なるモデルのAICが互いに近い（つまり、2 ）場合、それらは基本的に同じだと思います。しかし、AICは大きく異なります。これは、Hosmer-Lemeshowテストでそうでないことが示されていても、AICが最も低いものが使用すべきものであることを示しているようです。< 2<2<2 また、HLテストは大きなサンプルにのみ適用されるのでしょうか？サンプルサイズが小さい場合は消費電力が低くなります（サンプルサイズは約300）。しかし、重要な結果が得られている場合...これは、低電力でも拒否されることを意味します。 AICcとAICを使用した場合、違いが生じますか？SASでAICcを取得するにはどうすればよいですか？多重度に問題がある可能性があることは知っています。しかし、先験的に、変数が結果に影響を与えると仮定します。コメントはありますか？ Edit2：変数が1つ少ないモデルと、有意でないHLを持つより高いAICを使用する必要があると思います。その理由は、2つの変数が互いに相関しているためです。したがって、1つを削除することは理にかなっています。

12 regression logistic hosmer-lemeshow-test

2

線形回帰におけるt検定とANOVAの違い

線形回帰のt検定とANOVAの違いは何ですか？傾斜と切片のいずれか1つが平均ゼロであるかどうかをテストするt検定ですが、ANOVAはすべての傾斜が平均ゼロであるかどうかをテストしますか？これが唯一の違いですか？予測変数が1つしかない単純な線形回帰では、推定する勾配は1つだけです。t検定とANOVAは同等です。もしそうなら、異なる統計を使用している場合（t検定はt統計を使用し、ANOVAはF統計を使用している場合）

12 regression anova t-test

9

統計的手法の広く概念的な概要のための本

シミュレーション/予測/関数推定などの統計分析の可能性に非常に興味があります。しかし、私はそれについてあまり知りませんし、私の数学的な知識はまだかなり限られています-私はソフトウェア工学の学部生です。線形回帰とその他の回帰、ベイジアン法、モンテカルロ法、機械学習など、読み続けている特定のことから始められる本を探しています。両方を組み合わせた本がありました。できれば、技術的な詳細ではなく概念的に物事を説明してください。統計には非常に多くの危険な落とし穴があることを理解しているため、統計を非常に直感的にしたいと思います。価値があると思われるトピックの理解を深めるために、もっと本を読むつもりはありません。

12 r regression machine-learning references simulation

2

平均部分効果とは何ですか？

誰かが平均的な部分効果の意味を知っていますか？それは正確に何で、どのように計算できますか？ここに役立つ参考文献があります。

12 regression count-data

タグ付けされた質問 「regression」

タグ付けされた質問「regression」