タグ付けされた質問 「r-squared」

決定係数は、通常、 R2は、回帰モデルによって説明される全応答分散の割合です。また、たとえばロジスティック回帰(および他のモデル)など、提案されたさまざまな疑似R 2乗にも使用できます。

3
相関係数または決定係数は、回帰直線に沿った値の割合に関連していますか?
相関rrrは、2つの変数間の線形関連性の尺度です。決定係数は、1つの変数の変動がどれだけ他の変数の「説明」できるかを示す尺度です。r2r2r^2 たとえば、が2つの変数間の相関である場合、です。したがって、一方の変動の64%は、他方の違いによって説明できます。正しい?r 2 = 0.64r=0.8r=0.8r = 0.8r2=0.64r2=0.64r^2 = 0.64 私の質問は、記載されている例では、次のステートメントのいずれかが正しいですか? 値の64%が回帰直線に沿っています 値の80%が回帰直線に沿って落ちます

1
を2乗すると説明付きの分散が得られるのはなぜですか?
これは基本的な質問かもしれませんが、なぜ回帰モデルの値を単純に二乗して説明された分散の図を得ることができるのか疑問に思っていましたか?RRR 私は理解して係数は、関係の強さを与えることができますが、私は、この値を二乗すると説明された分散の尺度を与える方法を単に理解していません。RRR これの簡単な説明はありますか? これを手伝ってくれてありがとう!

1
重回帰では、部分的なを合計して合計にする必要がありますか?
以下は、mtcarsデータセットから作成されたモデルです。 > ols(mpg~wt+am+qsec, mtcars) Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(> chi2) 0.0000 g 6.456 Residuals Min 1Q Median …


3
診断メトリック(
私は自分のモデルを適合させ、それが良いかどうかを理解しようとしています。私はそれを評価するために推奨されるメトリック(R2R2R^2 / AUC /精度/予測誤差/など)を計算しましたが、それらを解釈する方法がわかりません。要するに、私のモデルがメトリックに基づいて良いかどうかはどのようにしてわかりますか?あるR2R2R^2、私は推論やベース科学/ビジネス上の意思決定を描画するために進んでみましょうするのに十分な(例えば)0.6のは? この質問は、メンバーが頻繁に遭遇するさまざまな状況をカバーするために、意図的に広くなっています。このような質問は、この質問の重複として閉じることができます。ここで説明したメトリックを超えて範囲を広げる編集、およびその他の回答、特に他のクラスのメトリックに関する洞察を提供するものは歓迎されます。


1
時系列モデルでR-2乗を使用する際の問題は何ですか?
時系列にR-squaredを使用することは適切ではないことを読みました。時系列コンテキストでは(他のコンテキストがあることはわかっています)、R-squaredは一意ではなくなったためです。どうしてこれなの?これを調べてみましたが何も見つかりませんでした。通常、モデルを評価するとき、R-squared(または調整済みR-Squared)にあまり価値を置きませんが、多くの同僚(つまり、ビジネス専攻)はR-Squaredに完全に夢中で、できるようになりたいです。時系列のコンテキストでR-Squaredが適切でない理由を説明します。

2
回帰:RMSEと比較したRの2乗のユーティリティは何ですか?
トレーニング、検証、テストセットを使用して回帰を行っているとします。ソフトウェアの出力(Rのlm()関数など)からRMSEとRの2乗(R ^ 2、決定係数)を見つけることができます。 私の理解では、テストRMSE(またはMSE)は検証/テスト値の予測の良さの尺度であり、R ^ 2はトレーニングセットの分散をキャプチャする際の適合度の尺度です。 現実の世界で私が本当に気にかけているのは、私が見たことのないデータの一般化された予測精度です。それでは、RMSEと比較したR ^ 2値の有用性は何ですか?

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
線形回帰予測子を追加するとR 2乗が減少します
私のデータセット()従属変数(DV)、5つの独立した"ベースライン"変数(P1、P2、P3、P4、P5)と関心の独立変数(Q)を有します。N≈10,000N≈10,000N \approx 10,000 次の2つのモデルに対してOLS線形回帰を実行しました。 DV ~ 1 + P1 + P2 + P3 + P4 + P5 -> R-squared = 0.125 DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q -> R-squared = 0.124 つまり、予測子Qを追加すると、線形モデルで説明される分散の量が減少します。私の知る限り、これは起こらないはずです。 明確にするために、これらはR二乗値であり、調整済みR 二乗値ではありません。 JaspとPythonのstatsmodelsを使用して、R二乗値を検証しました。 この現象が発生する理由はありますか?たぶん、OLS法に関連するものはありますか?

1
従属変数の変換に
従属変数を持つ線形回帰モデルがあると想像してください。そのR 2 yを見つけます。ここで、別の回帰を行いますが、今回はlog (y )で、同様にR 2 log (y )を見つけます。R 2を比較してどちらのモデルが適しているかを確認することはできないと言われました。何故ですか?私に与えられた理由は、異なる量(異なる従属変数)の変動性を比較するためです。これが十分な理由であるかどうかはわかりません。yyyR2yRy2R^2_yログ(y)log⁡(y)\log(y)R2ログ(y)Rlog⁡(y)2R^2_{\log(y)}R2R2R^2 これを形式化する方法もありますか? 任意の助けいただければ幸いです。

1
サンプルRの2乗を計算する方法は?
これはおそらくどこかで議論されたと思いますが、明確な答えを見つけることができませんでした。式を使用して線形回帰モデルのサンプル外を計算しようとしていますは残差の2乗の合計で、は2乗の合計です。トレーニングセットについては、R2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma (y - \bar{y}_{train})^2 テストセットはどうですか?サンプル外にを使い続けるべきですか、それともを使うべきですか?y¯trainy¯train\bar{y}_{train}yyyy¯testy¯test\bar{y}_{test} を使用すると、結果のが負になることがあります。これは、使用したsklearnの関数の説明と一致しています(サンプルをテストするためのlinear_modelの関数でも使用されます)。彼らは、「入力フィーチャを無視して、yの期待値を常に予測する定数モデルは、R ^ 2スコアが0.0になる」と述べています。y¯testy¯test\bar{y}_{test}R2R2R^2r2_score()y¯testy¯test\bar{y}_{test}score() ただし、他の場所では、ここやここ(dmi3knoによる2番目の回答)のようにを使用しています。だから私はどちらがもっと理にかなっているのだろうと思っていましたか?コメントは大歓迎です!y¯trainy¯train\bar{y}_{train}

3
単純回帰と重回帰の関係
OLS回帰のに関する非常に基本的な質問R2R2R^2 OLS回帰y〜x1を実行します、たとえば0.3です。R2R2R^2 OLS回帰y〜x2を実行します。別の、たとえば0.4です。R2R2R^2 ここで、回帰y〜x1 + x2を実行します。この回帰のR二乗はどのような値になりますか? 重回帰のが0.4以上であることは明らかだと思いますが、0.7を超えることは可能ですか?R2R2R^2

5
十分位数を使用して相関を見つけることは、統計的に有効なアプローチですか?
相関関係のない1,449データポイントのサンプルがあります(r二乗0.006)。 データを分析したところ、独立変数の値を正と負のグループに分割すると、各グループの従属変数の平均に有意差があるように見えました。 独立変数値を使用してポイントを10ビン(十分位数)に分割すると、十分位数と平均従属変数値(r-2乗0.27)の間に強い相関があるようです。 私は統計についてあまり知らないので、ここにいくつかの質問があります: これは有効な統計的アプローチですか? 最適な数のビンを見つける方法はありますか? このアプローチの適切な用語は何ですか。 このアプローチについて学ぶためのいくつかの紹介リソースは何ですか? このデータの関係を見つけるために使用できる他の方法は何ですか? 参照用の十分位数データは次のとおりです。https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90 編集:これはデータの画像です: 業界の勢いは独立変数であり、エントリーポイントの品質は依存しています

3
可能な範囲
、、 3つの時系列があるとします。X1X1X_1X2X2X_2YYY 上で通常の線形回帰を実行している〜()、我々が得る。通常の線形回帰〜X_2を取得R ^ 2 = Vを。U &lt;Vと仮定YYYX1X1X_1Y=bX1+b0+ϵY=bX1+b0+ϵY = b X_1 + b_0 + \epsilonR2=UR2=UR^2 = UYYYX2X2X_2R2=VR2=VR^2 = VU&lt;VU&lt;VU < V 最小値と最大値の可能な値何R2R2R^2回帰のYYY〜X1+X2X1+X2X_1 + X_2(Y=b1X1+b2X2+b0+ϵY=b1X1+b2X2+b0+ϵY = b_1 X_1 + b_2 X_2 + b_0 + \epsilon)は? 新しい変数を追加すると常にR ^ 2が増加するため、最小R2R2R^2はVVV +小さな値である必要があると思いますが、この小さな値を定量化する方法がわからず、最大範囲を取得する方法もわかりません。R2R2R^2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.