回帰：RMSEと比較したRの2乗のユーティリティは何ですか？

11

トレーニング、検証、テストセットを使用して回帰を行っているとします。ソフトウェアの出力（Rのlm（）関数など）からRMSEとRの2乗（R ^ 2、決定係数）を見つけることができます。

私の理解では、テストRMSE（またはMSE）は検証/テスト値の予測の良さの尺度であり、R ^ 2はトレーニングセットの分散をキャプチャする際の適合度の尺度です。

現実の世界で私が本当に気にかけているのは、私が見たことのないデータの一般化された予測精度です。それでは、RMSEと比較したR ^ 2値の有用性は何ですか？

r regression regression-coefficients r-squared

— stackoverflowuser2010
ソース

7

未調整のは、として定義されます $R^2$

R^{2} = 1 - \frac{\frac{1}{ん} Σ_{私 = 1}^{ん} （ y_{私} - {\hat{y}}_{私} ）^{2}}{\frac{1}{ん} Σ_{私 = 1}^{ん} （ y_{私} - \bar{y} ）^{2}} = 1 - \frac{M S E}{\frac{1}{ん} T o t S S}

$R^2 = 1 - \frac{\frac{1}{n}\sum_{i=1}^n (y_i - \hat y_i)^2}{\frac{1}{n}\sum_{i=1}^n (y_i - \bar y)^2} = 1 - \frac{MSE}{\frac{1}{n}TotSS}$

RMSEをましょう

R M S E = \sqrt{M S E} 。

$RMSE = \sqrt{MSE}.$

与えられたデータセットに対して、とは固定されているため、異なるモデルは変更のみと見なされます。つまり、上記の式では、MSEのみが変更されます。したがって、とはどちらも同じ機能を備えているため、一方を考慮しても（解釈を除いて）大きな違いはありません。 $y_i$ $\bar y$ $\hat y_i$ $R^2$ $RMSE$

$R^2$ $RMSE = \sqrt{\frac{n}{n-p}MSE}$ $p$

— jld
ソース

7

Chaconneは、メジャーの式を定義すること、およびそれらが数学の観点からどのように非常に密接に関連しているかについて優れた仕事をしました。同じデータセットを使用してモデルをベンチマークまたはランク付けする場合、これらの2つの測定値は交換可能です。つまり、Rスクエア（それらを高から低にランク付け）を使用してもRMSE（低から高にランク付け）を使用しても、モデルのまったく同じランクを取得します。。

ただし、2つのメジャーの意味と使用方法は大きく異なります。R Squareは、適合度の尺度であるだけでなく、モデル（選択した独立変数のセット）が従属変数の動作（または分散）をどの程度説明できるかの尺度でもあります。したがって、モデルのR二乗が0.60の場合、従属変数の動作の60％を説明します。ここで、使用する変数の数に対してR Squareに基本的にペナルティを課すAdjusted R Squareを使用する場合、モデルへの変数の追加を停止する必要があるときにかなり良いアイデアが得られます（最終的には、オーバーフィットしたモデルを取得するだけです）。調整済みR二乗が0.60の場合。また、変数を追加すると、0.61に増加します。この余分な変数を追加する価値はおそらくありません。

ここで、RMSEに目を向けると、最も一般的には標準エラーと呼ばれます。R Squareとはまったく異なる用途があります。標準エラーを使用すると、関心のある信頼レベル（通常、99％、95％、または90％）を想定して、回帰推定値の周囲に信頼区間を構築できます。実際、標準誤差はZ値に相当します。したがって、回帰トレンドラインの周りに95％CIを構築する場合は、標準誤差に1.96を掛けて、回帰線の周りの95％CIの境界として、高低の見積もりをすばやく生成します。

したがって、R Square（および調整済みR Square）と標準誤差は、モデルの統計的ロバスト性を評価するのに非常に役立ちます。そして、示されているように、彼らは完全に異なる実用的なアプリケーションを持っています。1つはモデルの説明力を測定します。もう1つの方法では、信頼区間を作成できます。両方とも、非常に便利ですが異なるものです。

見たことのないデータの予測精度を評価することに関しては、どちらの測定にも限界があり、他のほとんどの測定も考えられます。サンプル外の新しいデータでは、モデルの履歴または学習サンプルのR二乗と標準誤差はあまり役に立ちません。サンプル外のものは、モデルがオーバーフィットしているかどうかを確認するための優れたテストです（Rスクエアが大きく、標準誤差が小さいが、サンプル外のパフォーマンスが低い）。予想されるデータ（まだ表示していないデータ）のより良い測定は、AIC、BIC、SICを含む情報基準であると理解しています。また、最良の情報基準値を持つモデルは、目に見えないデータをより適切に処理する必要があります。つまり、より予測性が高くなります。これらの測定は、Adjusted R Squareコンセプトの類似のいとこです。しかしながら、

— シンパ
ソース

1

ご回答有難うございます。私は通常、RMSEを使用して、線形回帰モデルの予測力を評価しました（未確認のテストセットの値を予測した後）。したがって、RMSEが「完全に異なる使用法...回帰推定値の周囲に信頼区間を構築する」ことは知りませんでした。これは統計学者のものだと思いますか？私はコンピュータサイエンスの出身なので、キャリアの中で信頼区間をあまり計算していません。

— stackoverflowuser2010 2016年