タグ付けされた質問 「r-squared」

決定係数は、通常、 R2は、回帰モデルによって説明される全応答分散の割合です。また、たとえばロジスティック回帰(および他のモデル)など、提案されたさまざまな疑似R 2乗にも使用できます。

1
VARモデルが定常データよりも非定常データでうまく機能するのはなぜですか?
pythonのstatsmodels VARライブラリを使用して財務時系列データをモデル化していますが、いくつかの結果に戸惑いました。VARモデルは時系列データが定常的であることを前提としています。不注意に2つの異なる証券の非定常シリーズの対数価格を当てはめましたが、驚くべきことに、当てはめられた値とサンプル内予測は、比較的重要ではない定常残差で非常に正確でした。サンプル内予測のは99%で、予測残差シリーズの標準偏差は予測値の約10%でした。R2R2R^2 ただし、対数価格を比較し、その時系列をVARモデルに当てはめると、当てはめ値と予測値はマークから大きく外れ、平均の周りの狭い範囲で跳ね返ります。その結果、残差は、近似値よりもログの戻りを予測する仕事がうまくいきます。予測残差の標準偏差は、近似データ系列よりも15倍大きく、予測系列の.007値です。R2R2R^2 VARモデルの適合対残差を誤って解釈したり、他のエラーを起こしたりしていませんか?非定常時系列は、同じ基礎データに基づく定常時系列よりも正確な予測になるのはなぜですか?私は同じpythonライブラリのARMAモデルを少し使ってみましたが、この単一のシリーズデータのモデリングのようなものは何もありませんでした。

1
線形回帰の標準化された
私はさまざまな結果を予測するために重回帰を適用した記事の結果を解釈しようとしています。しかし、「S(標準B係数は以下のように定義β X 1 = B 、X 1 ⋅ S D X 1ββ\betaここで、yは従属変数、x1は予測子です)報告されたものは、報告されたR2と一致しないようです。βx1=Bx1⋅SDx1SDyβx1=Bx1⋅SDx1SDy\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}yyyx1x1x_1R2R2R^2 -0.83、-0.29、-0.16、-0.43、0.25、および-0.29のにもかかわらず、報告されたR 2は0.20のみです。ββ\betaR2R2R^2 また、3つの予測値:体重、BMI、および脂肪%は、マルチコリニアであり、r = 0.8〜0.9の周りで性別内で相互に相関しています。 あるこれらと値の妥当なβさん、または間にはストレートな関係が存在しないβさんとR 2は?R2R2R^2ββ\betaββ\betaR2R2R^2 さらに、マルチコリニア予測子に関する問題は、4番目の予測子(VO2max)のに影響を与える可能性があります。ββ\beta

1
R二乗の興味深い導出
数年前、私はデータと変換を試す実験を通してこのアイデンティティを発見しました。それを私の統計学の教授に説明した後、彼は次のクラスに来て、ベクトルと行列表記を使用した1ページの証明を行いました。残念ながら私は彼がくれた紙をなくしました。(これは2007年に戻ったものです) 誰かが証明を再構築できますか? してみましょう元のデータポイントも。元のセットを角度だけ回転して、新しいデータポイントのセットを定義します。これらの点をます。(xi,yi)(xi,yi)(x_i,y_i)θθ\theta(x′i,y′i)(xi′,yi′)(x'_i,y'_i) 元の点のセットのR二乗値は、新しい点のセットの各座標の標準偏差の自然対数のに関する導関数の負の積に等しく、それぞれ評価されθθ\thetaθ=0θ=0\theta=0 r2=−(ddθln(σx′)∣∣θ=0)(ddθln(σy′)∣∣θ=0)r2=−(ddθln⁡(σx′)|θ=0)(ddθln⁡(σy′)|θ=0)r^2= - \left(\left.\frac{d}{d\theta}\ln(\sigma_{x'})\right|_{\theta=0} \right) \left(\left.\frac{d}{d\theta}\ln(\sigma_{y'})\right|_{\theta=0} \right)

2
複数の
線形回帰では、モデルを当てはめると楽しい結果に出会いました E[Y]=β1X1+β2X2+c,E[Y]=β1X1+β2X2+c,E[Y] = \beta_1 X_1 + \beta_2 X_2 + c, 次に、、X 1およびX 2データを標準化して中央揃えすると、YYYX1X1X_1X2X2X_2 R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R^2 = \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2. これは、y = m x + c回帰の 2変数バージョンのように感じます。R2=Cor(Y,X)2R2=Cor(Y,X)2R^2 = \mathrm{Cor}(Y,X)^2y=mx+cy=mx+cy=mx+c しかし、私が知っている唯一の証拠は、いずれにせよ建設的または洞察に富んでいない(下記を参照)ものですが、それを見ると、すぐに理解できるはずです。 考えの例: およびβ 2のパラメータは、私たちの「割合」与えるX 1およびX 2でYを、我々は彼らの相関のそれぞれの割合を取っているので、と...β1β1\beta_1β2β2\beta_2X1X1X_1X2X2X_2YYY sは部分相関であり、R 2は二乗複数の相関である...相関は部分相関を乗じ...ββ\betaR2R2R^2 最初に直交化すると、はC o v / V a r ...になります。この結果は幾何学的に意味がありますか?ββ\betaCov/VarCov/Var\mathrm{Cov}/\mathrm{Var} これらのスレッドのどれも私にとってどこにも通じないようです。誰もがこの結果を理解する方法の明確な説明を提供できますか? 不満足な証拠 R2=SSregSSTot=SSregN=⟨(β1X1+β2X2)2⟩=⟨β21X21⟩+⟨β22X22⟩+2⟨β1β2X1X2⟩R2=SSregSSTot=SSregN=⟨(β1X1+β2X2)2⟩=⟨β12X12⟩+⟨β22X22⟩+2⟨β1β2X1X2⟩\begin{equation} R^2 …

1
調整済みR二乗は、固定スコアまたはランダムスコアの母集団をR二乗で推定しようとしますか?
母集団の二乗は、固定スコアまたはランダムスコアを想定して定義できます。ρ2ρ2\rho^2 固定スコア:予測子のサンプルサイズと特定の値は固定されます。したがって、は、予測子の値が一定に保たれているときに、母集団回帰式によって結果で説明される分散の割合です。ρ2fρf2\rho^2_f ランダムスコア:予測子の特定の値は、分布から抽出されます。したがって、は、予測子の値が予測子の母集団分布に対応する母集団の結果で説明される分散の割合を指します。ρ2rρr2\rho^2_r この区別が\ rho ^ 2の推定に大きな違いをもたらすかどうかρ2ρ2\rho^2については、以前尋ねました。また、\ rho ^ 2の公平な見積もりを計算する方法 ρ2ρ2\rho^2についても一般的に質問しました。 サンプルサイズが大きくなると、固定スコアとランダムスコアの区別が重要でなくなることがわかります。ただし、調整済みR2R2R^2が固定スコアまたはランダムスコア\ rho ^ 2を推定するように設計されているかどうかを確認しようとしていますρ2ρ2\rho^2。 ご質問 調整済みR2R2R^2 は、固定スコアまたはランダムスコア\ rho ^ 2を推定するように設計されていρ2ρ2\rho^2ますか? 調整済みr二乗の式が\ rho ^ 2の 1つまたは他の形式にどのように関係するかについての原理的な説明はありρ2ρ2\rho^2ますか? 私の混乱の背景 Yin and Fan(2001、p.206)を読んだとき、彼らはこう書いている: 重回帰モデルの基本的な前提の1つは、独立変数の値が既知の定数であり、実験前に研究者によって固定されることです。従属変数のみがサンプルごとに自由に変化します。その回帰モデルは、固定線形回帰モデルと呼ばれます。 ただし、社会科学および行動科学では、独立変数の値が研究者によって固定されることはほとんどなく、ランダムなエラーの影響も受けます。したがって、アプリケーションの2番目の回帰モデルが提案されており、従属変数と独立変数の両方を変化させることができます(Binder、1959; Park&Dudycha、1974)。そのモデルは、ランダムモデル(または修正モデル)と呼ばれます。ランダムモデルと固定モデルから取得した回帰係数の最尤推定値は正規性の仮定の下では同じですが、それらの分布は大きく異なります。ランダムモデルは非常に複雑であるため、一般的に使用される固定線形回帰モデルの代わりに、それを受け入れる前にさらに調査が必要です。したがって、通常は固定モデルが適用され、仮定が完全に満たされていなくても(Claudy、1978)。仮定に違反した固定回帰モデルをこのように適用すると、「オーバーフィッティング」が発生します。これは、不完全なサンプルデータから導入されたランダムエラーがプロセスで大文字にされる傾向があるためです。その結果、そのようにして得られたサンプルの多重相関係数は、真の母集団多重相関を過大評価する傾向があります(Claudy、1978; Cohen&Cohen、1983; Cummings、1982)。 したがって、上記のステートメントが、調整されたがランダムモデルによって導入されたエラーを補償することを言っているのか、またはこれがランダムモデルの存在を示すペーパーの単なる警告であったのかは不明でしたが、固定モデルに焦点を当てます。R2R2R^2 参考文献 Yin、P.&&Fan、X.(2001)。重回帰における収縮の推定:さまざまな分析方法の比較。Journal of Experimental Education、69(2)、203-224。PDFR2R2R^2

2
は1より大きくできますか?
R2のWikipediaページには、が1より大きい値をとることができると書かれています。R2R2R^2 0から1の範囲外の値は、観測値とモデル化された値の間の一致を測定するために使用され、「モデル化」された値が線形回帰によって得られず、使用されるR 2の定式化に依存する場合に発生します。上記の最初の式を使用する場合、値はゼロ未満になる可能性があります。2番目の式を使用する場合、値は1より大きくなる可能性があります。R2R2R^2R2R2R^2 その引用は「2番目の式」を参照していますが、ページに2番目の式が表示されません。 が1より大きい可能性があるシナリオはありますか?非線形回帰についてこの質問について考えていますが、一般的な答えを知りたいのですが。R2R2R^2 [反対の質問を念頭に置いてこのページを見ている人:はい。は負にできます。これは、水平線よりもデータに適合するモデルを当てはめると発生します。これは通常、モデルまたは制約の選択の誤りが原因です。]R2R2R^2

1
R 2乗および高次の多項式回帰
以下のプロットは、移動時間への影響に対する道路の飽和度を示しています(自由流の移動時間に正規化)。 青い(BPR関数)曲線は、移動時間と飽和度を関連付けるためにフィールドで使用される標準化されたモデルを示しています。 私が収集した経験的データについて、赤で示されている3次多項式近似をプロットしました。この近似を評価するために、この3次近似のを見つけました。これは0.72と指定されました。R2R2R^2 私は同僚にについて話しました、そして彼は私にこの記事を指摘しました。非線形回帰のR-Squaredがないのはなぜですか?R2R2R^2 がより高次の多項式の適合を評価するために使用されているという多くの記事を見つけましたが、今はかなり混乱しています。R2R2R^2 あるこの場合、不適切な?代わりに何を使用すればよいですか?R2R2R^2

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
合計最小二乗回帰でR-2乗を計算することは可能ですか?
このアーカイブされたr-helpスレッドで Terry T.が提供するDeming関数を使用しています。2つの方法を比較しているので、次のようなデータがあります。 y x stdy stdx 1 1.2 0.23 0.67 2 1.8 0.05 0.89 4 7.5 1.13 0.44 ... ... ... ... デミング回帰(「総最小二乗回帰」とも呼ばれます)を実行し、勾配と切片を取得しました。相関係数を取得したいので、計算を開始します。数式を手動で入力しました:R2R2R^2 R2 <- function(coef,i,x,y,sdty){ predy <- (coef*x)+i stdyl <- sum((y-predy)^2) ### The calculated std like if it was a lm (SSres) Reelstdy <- sum(stdy) ### the real …

4
が合計してになるいくつかの変数の1つである場合、と間のは有用な値ですか?
回帰分析の前提の1つは、とが絡み合っていないことです。でも考えてみると理にかなっているようです。YバツXXYYY 例を示します。3つのセクション(ABおよびC)のテストがある場合。全体のテストスコアは、3つのセクションの個々のスコアの合計と等しくなります。ここで、はセクションAのスコアで、は全体的なテストスコアであると言えます。次に、線形回帰はこの質問に答えることができます:セクションAに起因する全体的なテストスコアの変動性は何ですか?ここでは、いくつかのシナリオが考えられます。YバツXXYYY セクションAは3つのセクションの中で最も難しいものであり、学生は常に最も低いスコアになります。このような場合、直感的にはは低くなります。全体的なテストスコアのほとんどはBとCによって決定されるためです。R2R2R^2 セクションAは学生にとって非常に簡単でした。この場合も、相関は高くありません。学生は常にこのセクションの100%を採点しているため、このセクションではテスト全体の得点については何もわかりません。 セクションAには中間的な困難があります。この場合、相関はより強くなります(ただし、他のスコア(BおよびC)にも依存します)。 別の例はこれです:尿中の微量元素の総含有量を分析します。そして、尿中のその微量元素の個々の種(化学形態)を独立して分析します。多くの化学的形態があり得る。そして、私たちの分析が正しければ、化学形態の合計は、(異なる手法で分析された)元素の総含有量と同じになるはずです。ただし、1つの化学形態が尿中の総元素含有量と相関しているかどうかを尋ねることは理にかなっています。この総含有量は、その元素の食物からの総摂取量の指標であるためです。次に、が尿の合計要素であり、YXXXYYY 尿中の化学形態Aである場合、相関を調べることにより、この化学形態が全体的な変動に寄与する主要な形態であるかどうかを調べることができます。 とが独立していない場合でも理にかなっているように思われ、これが場合によっては科学的質問への回答に役立つと思われます。YXXXYYY 上記の例では有用または意味があると思いますか?上記のテストスコアの例を考えると、生徒の難易度がまったく同じであれば、各セクションの約33%の貢献があると私はすでに言っています。しかし実際には、これは必ずしも真実ではありません。したがって、多分回帰分析を使用すると、試験の各セクションに起因する真の変動性を知るのに役立つと考えていました。したがって、帰無仮説が真ではないことをすでに知っていても、は意味があるように思えます。R 2R2R2R^2R2R2R^2 そのような状況を説明し、意味のあるパラメーターを提供するための代替の修正された回帰方法はありますか?

1
Rの異なるロバスト回帰の間の選択
私は不動産を評価するためのプログラムを書いており、いくつかの堅牢な回帰モデルの違いを本当に理解していません。そのため、どちらを選択するかわかりません。 私が試したlmrob、ltsRegとrlm。同じデータセットの場合、3つの方法すべてで係数の値が異なります。 私はそれが使用するのが最善であると考えltsReg、ためsummary(ltsReg())の情報を提供R-squaredしてp-values、これは私がモデルを受け入れるか却下するとどうかを判断するのに役立ちます。 それltsRegは良い選択だと思いますか? 編集:私はちょうど適合 R 統計を読んだところですが、調整されたR二乗は一般的に品質適合の最良の指標です

1
ポアソンGLM(対数リンク関数)の説明された分散の測定
(ログリンク関数を使用して)ポアソンGLMの「説明された分散」の適切な尺度を探しています。 私はいくつかの異なるリソース(このサイトと他の場所の両方で)を見つけましたが、いくつかの異なる擬似対策について説明していますが、ほぼすべてのサイトで、ロジットリンク関数に関連する対策について言及していますが、疑似測度が、私のポワシオン分布GLMの対数リンクなどの他のリンク関数に適しているかどうかを話し合います。R2R2R^2R2R2R^2 たとえば、ここに私が見つけたいくつかのサイトがあります: ロジスティック回帰(Cox&SnellまたはNagelkerke)について報告するのは、どの擬似メジャーですか?R2R2R^2 http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/ http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm 私の質問は次のとおりです。これらのリンクで説明されている方法(特にUCLAページのFAQ)は、Poission GLM(ログリンク機能を使用)に適していますか?他のどの方法よりも特定の方法が適切であるか、標準的に使用されていますか? 背景: これは、Poission GLMを使用して神経データを分析している研究論文用です。モデルの偏差(Poission分布を想定して計算)を使用して2つのモデルを比較しています。1つのモデル(A)には、他のモデル(B)から除外された5つのパラメーターが含まれています。私の興味(および論文の焦点)は、5つのパラメーターが統計的にモデルの適合を改善することを示すことです。ただし、レビュー担当者の1人は、両方のモデルがデータにどの程度適合しているかを示したいと考えています。 データの適合にOLSを使用していた場合、レビュー担当者は、5つのパラメーターがあるモデルと5つのパラメーターがないモデルの両方の値を効果的に求め、どちらのモデルが分散をどの程度適切に説明しているかを示します。私には合理的な要求のようです。仮に、モデルBのが0.05でモデルAのが0.25であるとします。これは統計的に有意な改善であるとしても、どちらのモデルもデータをうまく説明できません。または、モデルBのが0.5でモデルAのが0.7の場合、非常に異なる方法で解釈される可能性があります。私のGLMと同様の方法で適用できる最も適切な指標を探しています。R2R2R^2R2R2R^2R2R2R^2R2R2R^2R2R2R^2


1
2つの変数間の
まず、についての議論は一般に(つまり、回帰における決定係数)についての説明を引き起こすことを理解しています。私が答えようとしている問題は、2つの変数間の相関のすべてのインスタンスにそれを一般化することです。R 2r2r2r^2R2R2R^2 だから、私はかなりの間、分散の分散について困惑してきました。私はいくつかの説明を提供しましたが、それらはすべて問題があるようです: これは共分散の別の用語です。因子分析の文献ではPCAとEFAを区別するため、後者は共有分散を説明し、前者は説明しないと説明しているため、これは当てはまりません(PCAは明らかに共分散行列で動作しているため、共分散を考慮しているため、共有されます分散は異なる概念でなければなりません)。 相関係数の2乗()です。見る:r2r2r^2 http://www.philender.com/courses/linearmodels/notes1/var1.htmlまたは http://www.strath.ac.uk/aer/materials/4dataanalysisineducationalresearch/unit6/correlationcoefficient/ これは少し意味があります。ここでの問題は、それが共有分散であることを意味する方法を解釈することです。たとえば、「共有分散」の解釈の1つはです。はそれまで減少しない、または確かにすぐ直感的な概念[ ; これは4次元オブジェクトです]。r 2 c o v(A 、B )2 /(v a r(A )× v a r(B ))c o v(A、B) / [ v a r(A)+ v a r(B)]cov(あ、B)/[var(あ)+var(B)]{\rm cov}(A,B)/[{\rm var}(A)+{\rm var}(B)]r2r2r^2c o v(A、B)2/( v a r(A)× v a r(B))cov(あ、B)2/(var(あ)×var(B)){\rm cov}(A,B)^2/({\rm var}(A)\times{\rm var}(B)) 上記のリンクはどちらも、バレンティン図で説明しようとしています。彼らは助けにはなりません。まず、円のサイズは同じです(これは、何らかの理由で図にとって重要であるように思われます)。これは、不均一な分散を考慮していません。それは標準化された変数のバレンティンダイアグラムであり、したがって分散が等しいと想定できます。だから、、いない。r 2rrrr2r2r^2 …

2
トレーニングおよび検証データのパフォーマンスは良いが、テストデータのパフォーマンスは非常に悪い
5-6kの変数で回帰問題があります。データを重複しない3つのセット(トレーニング、検証、テスト)に分割します。私はトレーニングセットのみを使用してトレーニングを行い、モデルごとに異なる200変数のセットを選択することで、多くの異なる線形回帰モデルを生成します(このようなサブセットを約100k試します)。モデルにとしてスコアを付け。この基準を使用して、最終的にモデルを選択します。選択したモデルは、トレーニングデータと検証データで非常に類似したR ^ 2を持っていることがわかります。ただし、このデータをテストデータで試した場合、R ^ 2ははるかに低くなります。だから私は、トレーニングと検証データの両方に何らかの形で過剰適合しているようです。より堅牢なモデルを取得するにはどうすればよいですか? 分(R2訓練データ、R2検証データ)min(Rtraining data2,Rvalidation data2)\min(R^2_{\text{training data}}, R^2_{\text{validation data}})R2R2R^2R2R2R^2 トレーニングデータのサイズを増やしてみましたが、効果がありませんでした。おそらく、各サブセットのサイズを縮小することを考えています。 正則化を使用してみました。ただし、投げ縄または弾性ネットを使用して取得したモデルは、サブセット選択アプローチを実行して取得したモデルと比較して、トレーニングセットと検証セットのR ^ 2がはるかに低くなっR2R2R^2ています。したがって、これらのモデルは考慮しません。モデルAがトレーニングセットと検証セットの両方でモデルBよりも優れている場合、モデルAはモデルBよりも明らかに優れていると想定しているためです。これに同意しません。 関連して、R2R2R^2は私のモデルを選択するための悪い基準だと思いますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.