追加変数プロット(部分回帰プロット)は、重回帰で何を説明しますか?


17

Moviesデータセットのモデルがあり、回帰を使用しました。

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

出力は次のとおりです。

ここに画像の説明を入力してください

今、私は最初にAdded Variable Plotと呼ばれるものを試しましたが、次の出力が得られました:

avPlots(model, id.n=2, id.cex=0.7)

変数プロットを追加

問題は、Googleを使用して追加変数プロットを理解しようとしましたが、その深さを理解できませんでした。プロットを見て、出力に関連する各入力変数に基づいたスキューの表現の種類を理解しました。

データの正規化を正当化する方法など、もう少し詳細を取得できますか?


4
@Silverfishはあなたの質問にいい答えをくれました。特定のデータセットをどう処理するかの詳細については、線形モデルは非常に悪い考えのように見えます。投票は明らかに非常に歪んだ非負変数であるため、ポアソンモデルのようなものが示されます。例:blog.stata.com/tag/poisson-regressionを参照してください。このようなモデルは、標準線形モデルが限界正規性を仮定する以上に、応答の周辺分布が正確にポアソンであるという仮定にコミットしないことに注意してください。
ニックコックス

2
線形モデルがうまく機能しないことを確認する1つの方法は、かなりの割合のケースで負の値を予測することに注意することです。最初の残差プロットの近似左側の領域を参照してください。=0
ニックコックス

ニック・コックスのおかげで、ここで非常に歪んだ非負の性質があることがわかったので、ポアソンモデルを検討する必要がありますので、データセットに基づいてどのシナリオでどのモデルを使用するかについて適切なアイデアを与えるリンクがあります私のデータセットの多項式回帰は、ここで正しい選択になります...
Abhishek Choudhary

1
私はすでにリンクを提供しており、それはさらに参照を提供します。申し訳ありませんが、「データセットに基づくシナリオ」と「多項式回帰」に関する質問の後半を理解できません。もっと詳細に新しい質問をする必要があると思います。
ニックコックス14年

Rが機能を認識できるように、どのパッケージをインストールしましたavPlotsか?
イサ

回答:


36

説明のために、予測変数とが相関する可能性のある、それほど複雑でない回帰モデルます。さんは斜面ましょうと我々は(私は)それを言うことができますので、両方の正であるにつれて増加場合、増加をあるため、定数を保持する正です。(ii)が一定に保たれている場合、は正であるため、が増加すると増加します。Y=β1+β2X2+β3X3+ϵX2X3β2β3YX2X3β2YX3X2β3

他の変数が一定に保たれたときに何が起こるかを考慮することにより、重回帰係数を解釈することが重要であることに注意してください(「セテリスパリバス」)。モデルで、に対してを回帰したと仮定します。斜面係数のための私の見積もりの効果測定、における1つの単位増加のせずに保持定数を、私の見積りと異なる場合があり重回帰から-も上の効果を測定することをのは、で1単位増加しますが、YX2Y=β1+β2X2+ϵβ2YX2 X3β2YX2ないホールド定数を。私の推定の問題は、とが相関している場合、省略された変数のバイアスに悩まされることです。X3β2^X2X3

理由を理解するために、とが負の相関関係にあると想像してください。これで、を1単位増やすと、以降にの平均値が増えることが。しかし、が増加するにつれて、一定に保持しないと、は減少する傾向があり、平均値が減少する傾向があります。したがって、変動を許可すると、 1単位の増加の全体的な効果は低くなります。したがって、です。物事はより強く悪化し、X2X3X2Yβ2>0X2X3X3β3>0YX2X3β2<β2X2X3は相関しており、からまでの効果が大きくなります-非常に深刻な場合、Ceteris paribus、がプラスの影響を与えることがわかっているにもかかわらず、見つけることさえあります!X3β3β2<0X2Y

に対してグラフを描くことが、モデル内のと関係を視覚化するのに不十分な方法になる理由を理解できたと思います。私の例では、回帰モデルからのを反映しない勾配の最適な線に目が引かれます。最悪の場合、モデルは、が増加するとが増加すると予測する場合があります(他の変数は一定に保たれます)が、グラフ上のポイントはが増加するとが減少することを示します。YX2YX2β2^β2^YX2YX2

問題は、に対するの単純なグラフでは、他の変数が一定に保持されないことです。これは、追加変数プロット(偏回帰プロットとも呼ばれます)の利点に関する重要な洞察です。Frisch-Waugh-Lovellの定理を使用して、他の予測子の効果を「部分的に外します」。プロットの水平軸と垂直軸は、おそらく「他の予測子が考慮された後の」および「他の予測子が考慮された後の」として最も容易に理解されます* 。他のすべての予測変数が考慮されたら、 と関係を確認できますYX2X2YYX2 。そのため、たとえば、各プロットに表示される勾配は、元の重回帰モデルの偏回帰係数を反映するようになりました。

特に、追加変数プロットの残差は元の重回帰の残差であるため、追加変数プロットの値の多くは回帰診断段階で発生します。これは、重回帰モデルではなく単純な回帰モデルのプロットを見たときと同様の方法で、外れ値と不均一分散を特定できることを意味します。影響力のあるポイントも確認できます。これは、他の変数を考慮する前の元のデータでは影響力のあるポイントが明確でないため、重回帰で役立ちます。私の例では、適度に大きい値はデータのテーブル内で見えないかもしれませんが、とにもかかわらず値も大きい場合X2X3X2X3負の相関がある場合、組み合わせはまれです。「他の予測変数の説明」、値は異常に大きく、追加された変数プロットでより顕著に突出します。X2

より技術的には、他の2つの重回帰の実行による残差です:以外のすべての予測変数に対する回帰からの残差は垂直軸に進み、他のすべての予測変数に対する回帰からの残差は水平軸にあります。これは、「他の人に与えられた」と「他の人に与えられた」という伝説があなたに言っていることです。これらの回帰の両方からの平均残差はゼロであるため、(が他の人に与えられた場合、YX2X2YX2X2Y他の人に与えられる)は(0、0)になり、追加変数プロットの回帰直線が常に原点を通過する理由を説明します。しかし、軸について言及することは、他の回帰からの残差にすぎず、人々を混乱させることがよくあります(おそらく、4つの異なる回帰について話しているので驚くことではありません!)。「他の人に与えられた」と「他の人に与えられた」として理解してください。X2Y


これをどうやって尋ねればいいのかわかりませんが、プロットに見られる傾向について本当に言えることはありますか?たとえば、各トレンドの適合度は、各予測変数の独立性、またはそのようなものに関連していますか?
-naught101

2
水平軸と垂直軸の残差の単位を基礎となる変数の単位に変換する方法はありますか?
ニコラスG

これは素晴らしい答えです。しかし、最初の段落(予測変数)にタイプミスはありますか?それらはX2とX3である必要がありますか?
間違いなく

@detlyありがとう、変更されました!
シルバーフィッシュ

Silverfish、@ NicholasGの質問に対する答えを知っていますか?X変数の単位で残差を解釈可能にする方法はありますか?
Parseltongue

-1

プロットに見られる傾向について本当に言えることはありますか

確かに、それらの傾きは元のモデルからの回帰係数です(部分回帰係数、他のすべての予測変数は一定です)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.