統計とビッグデータ r-squared

3

調整されたR 2乗がモデルをより良く予測する場合、調整されたR 2乗はR 2乗よりも小さいのはなぜですか？

私が理解している限り、R2R2R^2はモデルが観測をどれだけうまく予測できるかを説明しています。調整済みR2R2R^2は、より多くの観測値（または自由度）を考慮したものです。それでは、Adjusted R2R2R^2はモデルをより良く予測しますか？では、なぜこれがよりも小さいのR2R2R^2でしょうか？多くの場合、それ以上のはずです。

15 regression r-squared

1

黄土適合のR平方を取得する方法は？

および/または関数出力のRのR 二乗（）統計を計算する方法は？このデータの例：r2r2r^2loesspredict cars.lo <- loess(dist ~ speed, cars) cars.lp <- predict(cars.lo, data.frame(speed = seq(5, 30, 1)), se = TRUE) cars.lpfitモデルse.fit用と標準エラー用の2つの配列があります。

15 r r-squared loess

2

さまざまな調整済み

私は、以下によって提案された調整済みのR 2乗公式を念頭に置いています。エゼキエル（1930）、これは現在SPSSで使用されているものだと思います。 R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) オルキンとプラット（1958） R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} どのような状況下で（もしあれば）、「調整された」を「バイアスされていない」R 2に優先すべきR2R2R^2ですか？参照資料エゼキエル、M。（1930）。相関分析の方法。ジョン・ワイリーとサンズ、ニューヨーク。オルキンI.、プラットJW（1958）。特定の相関係数の不偏推定。数理統計学年報、29（1）、201-211。

15 regression r-squared

5

線形回帰が統計的に有意であるが、r 2乗が非常に低いとはどういう意味ですか？

モデルは個々のデータポイントを予測するのは苦手ですが、しっかりした傾向を確立していることを意味すると理解しています（たとえば、xが上がるとyが上がる）。

14 regression inference r-squared linear

4

なぜですか？（1変数線形回帰）

注： =合計平方和、 = 平方誤差合計、 =回帰平方和。タイトルの方程式は、多くの場合次のように記述されます。SSTSSTSSTSSESSESSESSRSSRSSR ∑i = 1n（y私− y¯）2= ∑i = 1n（y私− y^私）2+ ∑i = 1n（y^私− y¯）2∑私=1n（y私−y¯）2=∑私=1n（y私−y^私）2+∑私=1n（y^私−y¯）2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 かなり簡単な質問ですが、直感的な説明を探しています。直感的には、がより理にかなっているように思えます。たとえば、ポイントに対応するy値およびとします。ここで、は回帰直線上の対応するポイントです。また、データセットの平均y値がと仮定し。次に、この特定のポイントiについて、、および。明らかに、です。この結果はデータセット全体に一般化されませんか？わかりません。SST≥ SSE+ SSRSST≥SSE+SSRSST\geq SSE+SSRバツ私バツ私x_i、Y iが = 3 、Y I ˉ Y = 0 S S T = （5 - 0 ）2 = 5 2 = 25 …

14 regression least-squares r-squared

2

段階的回帰は、母集団のr平方の偏った推定値を提供しますか？

心理学やその他の分野では、次のような段階的な回帰の形式がよく使用されます。残りの予測子（最初はモデルにない予測子）を見て、最大のr平方変化をもたらす予測子を特定します。 r平方変化のp値がアルファ（通常.05）より小さい場合は、その予測子を含めて手順1に戻ります。それ以外の場合は停止します。たとえば、SPSSのこの手順を参照してください。この手順は、さまざまな理由で日常的に批判されています（StataのWebサイトでこの議論を参照してください）。特に、StataのWebサイトには、Frank Harrellによるいくつかのコメントがまとめられています。私は主張に興味があります： [ステップワイズ回帰]は、大きく偏ったR乗値を生成します。具体的には、私の現在の研究のいくつかは、母集団r-squareの推定に焦点を当てています。母集団のr二乗によって、母集団の方程式を生成する母集団データによって説明される分散の割合を参照します。私がレビューしている既存の文献の多くは、段階的な回帰手順を使用しており、提供された推定値が偏っているかどうか、もしそうであればどの程度かを知りたいです。特に、典型的な研究では、30の予測変数、n = 200、.05のエントリのアルファ、および.50前後のr二乗推定値があります。私が知っていること：漸近的に、係数がゼロでない予測子は統計的に有意な予測子となり、r-squareは調整されたr-squareと等しくなります。したがって、漸近的な段階的回帰では、真の回帰方程式と真の母集団r平方を推定する必要があります。サンプルサイズが小さい場合、一部の予測子が省略される可能性があるため、すべての予測子がモデルに含まれていた場合よりもr平方が小さくなります。しかし、データをサンプリングするためのr-squareの通常のバイアスもr-squareを増加させます。したがって、私の素朴な考えは、これらの2つの対立する力が特定の条件下で不偏のr二乗になる可能性があるということです。より一般的には、バイアスの方向は、データのさまざまな機能とアルファ包含基準に依存します。より厳密なアルファ包含基準（たとえば、.01、.001など）を設定すると、データの生成に予測子が含まれる確率が低くなるため、予想される推定r-squareが低くなります。一般に、r-squareは母集団r-squareの上方に偏った推定値であり、この偏りの程度は、予測子が多くなり、サンプルサイズが小さくなると増加します。質問最後に、私の質問：段階的回帰からのr 2乗は、どの程度まで人口r 2乗の偏った推定値になりますか？このバイアスは、サンプルサイズ、予測子の数、アルファ包含基準、またはデータのプロパティにどの程度関連していますか？このトピックに関する参照はありますか？

14 regression model-selection bias r-squared stepwise-regression

1

母集団のR平方の公平な推定とは何ですか？

多重線形回帰で不偏推定値を取得することに興味がありますR2R2R^2。熟考すると、不偏推定値が一致しようとしている2つの異なる値を考えることができます。R2R2R^2 Out of sample：R2R2R^2サンプルから得られた回帰方程式（つまり）が、サンプルの外部にある同じデータからの無限量のデータに適用された場合に得られるr平方生成プロセス。β^β^\hat{\beta} 母集団：R2R2R^2無限サンプルが取得され、モデルがその無限サンプル（つまり、）に適合した場合に取得されるr平方、または既知のデータ生成プロセスによって暗示されるR平方のみ。ββ\beta 調整されたR2R2R^2は、サンプル観察された過剰適合を補償するように設計されていることを理解しています。それにもかかわらず、調整後かどうかは明らかではない実際の不偏推定値であり、、それは二定義は上記の不偏推定値である場合、が推定することを目指しています。R2R2R^2R2R2R^2R2R2R^2R2R2R^2 したがって、私の質問：上記のサンプルからの偏りのない推定値は何ですか？R2R2R^2 母集団より上で私が呼ぶものの公平な推定とは何ですか？R2R2R^2 公平性のシミュレーションまたはその他の証拠を提供する参考文献はありますか？

14 estimation multiple-regression r-squared bias

2

「F回帰」と

フィーチャをF-regressionラベルと個別に関連付け、値を観察するのと同じ方法を使用してフィーチャを比較していますか？R2R2R^2 私は同僚F regressionが機械学習パイプラインで機能の選択にを使用するのをよく見ていますsklearn： sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` 教えてください-なぜそれをラベル/依存変数と単に相関させるのと同じ結果を与えるのですか？ F_regression機能選択で使用することの利点が私には明らかではありません。ここに私のコードがあります：私はmtcarsからのデータセットを使用していRます： import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical columns as features ['mpg', 'disp', 'drat', 'wt'] # …

14 feature-selection python scikit-learn r-squared f-test

3

複数のRとRの2乗の違いは何ですか？

線形回帰では、複数のRとRの2乗を取得することがよくあります。それらの違いは何ですか？

13 regression r-squared

2

グループを分離するPCAコンポーネントの選択

私はPCAを使用して多変量データを診断するために頻繁に使用しました（数十万の変数と数十または数百のサンプルを含むオミックスデータ）。データは、いくつかのグループを定義するいくつかのカテゴリ独立変数を使用した実験から得られることが多く、対象のグループ間の分離を示すものを見つける前に、いくつかのコンポーネントをよく調べなければなりません。私はそのような差別的なコンポーネントを見つけるかなり原始的な方法を思いつきました、そして私は疑問に思いますこれが合理的/正当化できる範囲同じことを達成するより良い方法があるかどうか。これは探索的であることに注意してください。他の人を説得する前に、私は自分自身を説得したいと思います。関心のあるグループを明確に区別するコンポーネント（コントロールと治療など）があることがわかった場合、たとえそれらが応答の分散のわずかな部分を担っていたとしても、たとえば監視されたマシンからの結果よりもそれを信頼します学習。これが私のアプローチです。Rのpca3dの「メタボ」サンプルデータセットを使用します。アイデアは、各コンポーネントの分散が独立変数によってどの程度説明できるかを評価することです。このために、各コンポーネントの単純なモデルを計算し、R2R2R^2をメトリックとして使用して、コンポーネントを「最も興味深い」から「最も興味深い」の順に並べます。 require( pca3d ) # data on metabolic profiles of TB patients and controls data( metabo ) # first column is the independent variable pca <- prcomp( metabo[,-1], scale.= T ) # create a model for each component lm.m <- lm( pca$x ~ metabo[,1] ) …

13 pca linear-model r-squared discriminant-analysis

1

一般化線形モデルの偏差に対する線形モデルのR二乗？

この質問に対する私のコンテキストは次のとおりです。私が知ることができることから、加重データとsurveyパッケージを使用する場合、Rで通常の最小二乗回帰を実行することはできません。ここではsvyglm()、代わりに一般化線形モデルを実行するを使用する必要があります（これは同じものかもしれません。ここでは、何が違うのかという点であいまいです）。 OLS lm()では、関数を使用してRの2乗値を計算しますが、その解釈は理解できます。しかし、svyglm()これを計算していないようで、代わりに偏差を与えます。これは、インターネットを巡回する短い旅行で、Rの2乗とは異なる解釈の適合度の尺度であるとわかります。だから私は基本的に、何らかの方向性を得ることを望んでいた2つの質問があると思います： surveyパッケージでOLSを実行できないのはなぜですか。これは、Stataで重み付けされたデータを使用して実行できるように思われますか？一般化線形モデルの逸脱とr二乗値の解釈の違いは何ですか？

13 r generalized-linear-model least-squares r-squared deviance

2

の値を使用して、重回帰分析で線形性の仮定をテストするにはどうすればよいですか？

以下のグラフは、「正常性」、「同相性」、「独立性」の仮定が確実に満たされている回帰テストの残差散布図です。「線形性」の仮定をテストする場合、グラフを見ると関係が曲線であると推測できますが、問題は次のとおりです。「R2線形」の値を使用して線形性の仮定をテストできますか？関係が線形であるかどうかを判断するための「R2 Linear」の値の許容範囲はどのくらいですか？線形性の仮定が満たされておらず、IVの変換も役に立たない場合はどうすればよいですか？!! テストの全結果へのリンクはこちらです。散布図：

13 multiple-regression linear-model assumptions r-squared

2

95％信頼区間の式

Googleでstats.stackexchangeを検索しましたが、線形回帰のR2R2R^2値の95％信頼区間を計算する式が見つかりません。誰でも提供できますか？さらに良いことに、以下のRで線形回帰を実行したとしましょう。Rコードを使用して、R2R2R^2値の95％信頼区間をどのように計算しますか。 lm_mtcars <- lm(mpg ~ wt, mtcars)

13 r regression confidence-interval inference r-squared

2

Nakagawa＆Schielzeth（2013）R2glmmメソッドを使用した混合モデルでの計算

私は混合モデルで値の計算について読んでおり、R-sig FAQ、このフォーラムの他の投稿（いくつかリンクしますが、十分な評判はありません）および使用することを理解しているいくつかの他の参照混合モデルのコンテキストでの値は複雑です。R 2R2R2R^2R2R2R^2 しかし、最近、以下の2つの論文に出会いました。これらの方法は有望に見えますが（私には）統計学者ではないので、他の誰かが提案する方法や提案されている他の方法とどのように比較するかについての洞察が他にあるのではないかと思いました。中川、シンイチ、ホルガー・シエルツェス。「一般化線形混合効果モデルからR2を取得するための一般的かつ簡単な方法。」Methods in Ecology and Evolution 4.2（2013）：133-142。ジョンソン、ポールCD。「Nakagawa＆SchielzethのR2GLMMのランダム勾配モデルへの拡張。」生態学と進化の方法（2014）。 isメソッドは、MuMInパッケージの r.squaredGLMM関数を使用して実装することもできます。これは、メソッドの以下の説明を提供します。混合効果モデルの場合、は2つのタイプに分類できます。限界は固定因子によって説明される分散を表し、次のように定義されます条件付きは、固定因子とランダム因子（モデル全体）の両方によって説明される分散として解釈され、式に従って計算されます：ここで、は固定効果成分の分散、は、すべての分散成分（グループ、個人など）の、R 2 R G L M M（M ）2 = σ 2 FR2R2R^2R2R2R^2 R2RGLMM（C）2=（σ 2 F +Σ（σ 2 L））RGLMM(m)2=σ2fσ2f+∑(σ2l)+σ2e+σ2dRGLMM(m)2=σf2σf2+∑(σl2)+σe2+σd2R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}R2R2R^2RGLMM(c)2=(σ2f+∑(σ2l))(σ2f+∑(σ2l)+σ2e+σ2dRGLMM(c)2=(σf2+∑(σl2))(σf2+∑(σl2)+σe2+σd2R_{GLMM}(c)^2= \frac{(σ_f^2 + \sum(σ_l^2))}{(σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}σ2fσf2σ_f^2∑(σ2l)∑(σl2)\sum(σ_l^2)σ2lσl2σ_l^2は加法分散による分散であり、は分布固有の分散です。 …

13 r mixed-model r-squared lme4-nlme

1

帰無仮説での決定係数

私が作っ文の好奇心、このテキストの最初のページの下部に係るR2adjustedRadjusted2R^2_\mathrm{adjusted}調整 R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). テキストの状態：調整の論理は次のとおりです。通常の重回帰では、ランダムな予測子が平均して応答の変動の割合を説明するため、ランダムな予測子が平均して応答の変動。つまり、期待値はです。[ ]式をその値に適用すると、すべての予測変数がランダムであり、ます。m m /（n – 1 ）1/(n–1)1/(n–1)1/(n – 1)mmmm/(n–1)m/(n–1)m/(n – 1)R2R2R^2E(R2)=m/(n–1)E(R2)=m/(n–1)\mathbb{E}(R^2) = m/(n – 1)R2adjustedRadjusted2R^2_\mathrm{adjusted}R2adjusted=0Radjusted2=0R^2_\mathrm{adjusted} = 0 これは、非常にシンプルで解釈可能な動機のようです。ただし、単一のランダム（つまり、無相関）予測子に対してであると判断することはできませんでした。 E（R 2）= 1 /（n – 1 ）R2adjustedRadjusted2R^2_\mathrm{adjusted}E(R2)=1/(n–1)E(R2)=1/(n–1)\mathbb{E}(R^2)=1/(n – 1) 誰かが私をここで正しい方向に向けることができますか？

12 regression expected-value goodness-of-fit r-squared

タグ付けされた質問 「r-squared」

タグ付けされた質問「r-squared」