タグ付けされた質問 「r-squared」

決定係数は、通常、 R2は、回帰モデルによって説明される全応答分散の割合です。また、たとえばロジスティック回帰(および他のモデル)など、提案されたさまざまな疑似R 2乗にも使用できます。

6
ある便利か危険?
私はCosma Shaliziによるいくつかの講義ノート(特に、2番目の講義のセクション2.1.1)をざっと読んでいて、完全に線形のモデルを持っている場合でも非常に低い取得できることを思い出しました。R2R2R^2 Shaliziの例を言い換えると、モデルがありがわかっているとします。次にとの量は、分散が説明^ 2 \ Varの[X]ので、R ^ 2 = \ FRAC {^ 2 \ Varの[X]} {^ 2 \ Varの[X] + \ Varの[\イプシロン]}。これは、\ Var [X] \ rightarrow 0として0になり、\ Var [X] \ rightarrow \ inftyとして1になります。V R [ Yは] = 2 V Rを [ X ] + V R [ ε ] 2 …

9
線形回帰モデルで切片を削除しても大丈夫ですか?
私は線形回帰モデルを実行しており、インターセプト項を削除するための条件は何かと考えています。 一方が切片を持ち、もう一方が切片を持たない2つの異なる回帰の結果を比較すると、切片のない関数のがはるかに高いことがわかります。インターセプト項の削除が有効であることを確認するために従うべき特定の条件または仮定はありますか?R2R2R^2

2
統計的に有意な切片項を削除すると、線形モデルのが増加します
単一の説明変数を持つ単純な線形モデルでは、 αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 切片項を削除すると、近似が大幅に改善されることがわかりました(値は0.3から0.9になります)。ただし、切片の項は統計的に有意であると思われます。R2R2R^2 インターセプトあり: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

3
Rが負の場合
私の理解では、は乗なので負にはなり得ません。しかし、単一の独立変数と従属変数を使用してSPSSで単純な線形回帰を実行しました。私のSPSS出力は、負の値を与えます。Rから手動でこれを計算する場合、は正になります。これを負として計算するためにSPSSは何をしましたか?R 2 R 2R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 私が使用したコード: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 負の値を取得します。誰もこれが何を意味するのか説明できますか?

7
ロジスティック回帰(Cox&SnellまたはNagelkerke)について報告するのはどの擬似尺度ですか?
SPSSロジスティック回帰モデルの出力があります。出力は、モデルの適合のための2つの対策を報告し、Cox & SnellそしてNagelkerke。 それで、経験則として、これらのR2R²R^²測定値のどれがモデルに適合すると報告しますか? または、これらの適合指数のどれがジャーナルで通常報告されますか? ある程度の背景:回帰は、いくつかの環境変数(例:急峻さ、植生被覆など)から鳥(アカゲラ)の有無を予測しようとします。残念ながら、鳥はあまり頻繁に出現しなかったため(35ヒットから468ミス)、回帰のパフォーマンスはかなり低下しました。Cox&Snellは.09、Nagelkerke、.23です。 主題は、環境科学または生態学です。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
関係及び相関係数
2つの1次元配列とます。それぞれに100個のデータポイントが含まれます。は実際のデータであり、はモデル予測です。この場合、値は次のようになります それまでの間、これは相関係数の二乗値に等しくなり 2つを入れ替えると、は実際のデータであり、はモデル予測です。方程式から、相関係数はどちらが先かを気にしないため、a1a1a_1a2a2a_2a1a1a_1a2a2a_2R2R2R^2R2=1−SSresSStot (1).R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). R2=(Correlation Coefficient)2(2).R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). a2a2a_2a1a1a_1(2)(2)(2)R2R2R^2値は同じです。しかし、式から、、値が変化する、ため我々が切り替えると変更されたからと。それまでの間、は変更されません。(1)(1)(1)SStot=∑i(yi−y¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - \bar y )^2R2R2R^2SStotSStotSS_{tot}yyya1a1a_1a2a2a_2SSres=∑i(fi−y¯)2SSres=∑i(fi−y¯)2SS_{res}=\sum_i(f_i-\bar y)^2 私の質問は次のとおりです。これらは互いに矛盾することができますか? 編集: 方程式の関係はどうなるのだろうと思っていました。(2)単純な線形回帰でない場合、つまり、IVとDVの関係が線形ではない場合(指数関数/対数) 予測誤差の合計がゼロに等しくない場合、この関係はまだ維持されますか?

1
手動で計算された
これはかなり具体的なR質問であることはわかっていますが、説明する割合の分散について考えているかもしれません。について間違っている。ここに行きます。R2R2R^2 私は使用しようとしています RパッケージますrandomForest。トレーニングデータとテストデータがあります。ランダムフォレストモデルを当てはめると、このrandomForest関数を使用して、テストする新しいテストデータを入力できます。次に、この新しいデータで説明された分散の割合を示します。これを見ると、1つの数字が得られます。 predict()関数を使用して、トレーニングデータからのモデルフィットに基づいてテストデータの結果値を予測し、これらの値とテストデータの実際の結果値の異なる数値が得られます。これらの値は一致しません。 R問題を示すためのコードを次に示します。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a model to the training set …

2
Rのlmで調整されたR-2乗式とは何ですか?
調整済みRの2乗のR で使用される正確な式は何lm() ですか?どうすれば解釈できますか? 調整されたr-2乗式 調整されたR-2乗を計算するためのいくつかの式が存在するようです。 ウェリーの式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} マクネマーの式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 主の公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} スタインの式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科書の説明 Fieldの教科書によると、Rを使用した統計の発見(2012、p。273)Rは、Wherryの方程式を使用します。彼は、Wherryの公式を示していません。彼は、Steinの式を(手で)使用して、モデルがどのように交差検証されるかを確認することを推奨します。 Kleiber / Zeileis、Applied Econometrics with R(2008、p。59)は、「Theilの調整済みR 2乗」であると主張し、その解釈が複数のR 2乗からどのように変化するかを正確に述べていません。 Dalgaard、Introductory Statistics with R(2008、p。113)は、「[調整されたRの2乗]を100%掛けると、「%分散の減少」と解釈できる」と書いています。彼は、これがどの式に対応するかについては述べていません。 私は以前、R乗がモデルに追加の変数を追加するとペナルティを与えると考え、広く読んでいました。現在、これらの異なる式の使用は、異なる解釈を必要とするようです。また、スタックオーバーフロー(単一変量最小二乗回帰における複数R 2乗と調整R 2乗の違いは何ですか?)、およびUPennにあるウォートンスクールの統計辞書に関する関連する質問も調べました。 ご質問 Rによって調整されたr平方に使用される式はどれ lm()ですか? どうすれば解釈できますか?

1
「決定係数」と「平均二乗誤差」の違いは何ですか?
回帰問題については、「決定係数」(別名Rの2乗)を使用して、モデルの選択(正則化に適切なペナルティ係数を見つけるなど)を実行する人々を見てきました。 ただし、回帰精度の尺度として「平均二乗誤差」または「二乗平均平方根誤差」を使用することも一般的です。 では、これら2つの主な違いは何ですか?それらは「正規化」タスクと「回帰」タスクに交換可能に使用できますか?また、機械学習、データマイニングタスクなど、実際のそれぞれの主な用途は何ですか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
GLMの疑似R 2乗式
擬似公式は、Rによる線形モデルの拡張、Julian J. Faraway(p。59)の本で見つけました。R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 これはGLMの疑似一般的な式ですか?R2R2R^2

2
帰無仮説の下での線形回帰での分布は何ですか?ときになぜモードがゼロにならないのですか?
帰無仮説下での線形単変量多重回帰における決定係数、またはR 2乗の分布は何ですか?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 予測子の数とサンプルのどのように依存しますか?この分布のモードに閉形式の表現はありますか?kkkn&gt;kn&gt;kn>k 特に、単純な回帰(1つの予測子)の場合、この分布のモードはゼロになりますが、重回帰の場合、モードはゼロ以外の正の値になります。もしこれが本当なら、この「相転移」の直感的な説明はありますか?xxx 更新 @Alecosが以下に示すように、および場合、分布は実際にゼロでピークに達し、場合、ゼロではありません。この相転移には幾何学的な見方が必要だと感じています。OLSの幾何学的ビューを考えてみましょう:はベクトルで、は次元の部分空間を定義します。OLSはこの部分空間にを投影することになり、はとその投影間の角度の二乗余弦です。k=2k=2k=2k=3k=3k=3k&gt;3k&gt;3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2Yyy\mathbf yy^y^\hat{\mathbf y} @Alecosの答えから、すべてのベクトルがランダムである場合、この角度の確率分布はおよびでピークになりますが、他の値モードを持つことになりますのため。なぜ?!90∘90∘90^\circk=2k=2k=2k=3k=3k=3&lt;90∘&lt;90∘<90^\circk&gt;3k&gt;3k>3 更新2:私は@Alecosの回答を受け入れていますが、ここでいくつかの重要な洞察を逃していると感じています。もし誰かがこの現象について他の(幾何学的であるか否かを問わず)それを「明白」にするだろうと提案した場合、私は喜んで賞金を提供します。

9
ロジスティック回帰ベースのモデルの精度を測定する
トレーニング済みのロジスティック回帰モデルをテストデータセットに適用しています。従属変数はバイナリ(ブール)です。テストデータセットの各サンプルに対して、ロジスティック回帰モデルを適用して、従属変数が真になる確率を生成します。次に、実際の値が真か偽かを記録します。線形回帰モデルのように、または調整済み数値を計算しようとしています。R 2R2R2R^2R2R2R^2 これにより、テストセット内の各サンプルの記録が得られます。 prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... モデルの精度をテストする方法を疑問に思っています。私の最初の試みは、分割表を使用して「prob_value_is_true&gt; 0.80の場合、実際の値が真であると推測する」と言い、正しい分類と誤った分類の比率を測定することでした。しかし、私はそれが好きではありません。なぜなら、モデル全体およびすべてのprob_value_is_true値の精度ではなく、0.80を境界として評価しているように感じるからです。 次に、例として、prob_value_is_trueの各離散値を見てみました。prob_value_is_true= 0.34のすべてのサンプルを見て、実際の値が真であるサンプルの%を測定しました(この場合、サンプルの%それは本当でした= 34%)。の各離散値での差を合計することにより、モデル精度スコアを作成できますprob_value_is_true。しかし、サンプルサイズは、特に極値(0%または100%に近づいている)にとって大きな懸念事項であり、実際の値の平均は正確ではないため、モデルの精度を測定するためにそれらを使用することは適切ではないようです。 十分なサンプルサイズ(0-.25、.25-.50、.50-.75、.75-1.0)を確保するために巨大な範囲を作成しようとしましたが、実際の値のその%の「良さ」を測定する方法は私を困らせます。prob_value_is_true0.25から0.50の間にあるすべてのサンプルの平均acutal_valueが0.45であるとします。範囲内にあるので良いですか?37.5%(範囲の中心)に近くないので悪いですか? だから私は簡単な質問に思えるかもしれませんが、誰かがロジスティック回帰モデルの統計的確度を計算するためのリソースや方法を教えてくれることを望んでいます。

1
多重相関係数
Iは、複数の相関の幾何学的な意味に興味RRR決意するのと係数R2R2R^2回帰におけるyi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i 、またはベクトル表記で、 y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} ここで、設計行列XX\mathbf{X}有するnnn行およびkkk列を、そのうちの最初のものであるx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_n、切片に相当するが、その1Sのベクトルβ1β1\beta_1。 ジオメトリは、k次元の可変空間ではなく、nnn次元の対象空間でより興味深いものです。帽子行列を定義します。kkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top これは、の列空間への正射影ですXX\mathbf{X}。つまり、各変数x iを表すk個のベクトルが 広がる原点を通る平面です。その最初は1 nです。次いで、Hは観測された応答のベクトル突出Yを平坦にその「影」に、近似値のベクトルY = H yは、と我々は残差のベクトルを参照投影経路に沿って見た場合に、E = yと- ykkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}三角形の3番目の辺を形成します。これにより、幾何学的な解釈への2つのルートが提供されR2R2R^2ます。 複数の相関係数の二乗RRRとの間の相関として定義され、yy\mathbf{y}およびY。これは、角度の余弦として幾何学的に表示されます。y^y^\mathbf{\hat{y}} ベクトルの長さの点で:例えば、SSresidual=∑ni=1e2i=∥e∥2SSresidual=∑i=1nei2=‖e‖2SS_\text{residual} = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.