単純な回帰(単一の予測子によって予測される応答)を導入するためにプロットが普遍的に使用される理由は、それらが理解を助けるためです。
しかし、私は何が起こっているのかを理解するのに役立つかもしれない風味の何かを与えることができると信じています。ここでは主に、彼らが与える理解の一部を伝えることに焦点を当てます。これは、回帰について読む際に通常遭遇する他の側面のいくつかに役立つ可能性があります。したがって、この答えは主に投稿の特定の側面を扱います。
普通のオフィスデスクのような大きな長方形のテーブルの前に座っていると想像してください。
あなたはテーブルの前の通常の位置に座って、1つの長辺の真ん中にいます。このテーブルでは、多数の釘(かなり滑らかな頭)が上面に打ち込まれているため、それぞれが少し突き出ています(場所を感じるのに十分で、紐を結び付けるか、輪ゴムを取り付けるのに十分です) )。
これらの爪は机の端からさまざまな距離にあり、一端(左端など)に向かって、通常は机の端に近く、他端に向かって釘の頭を移動します。あなたの端から遠く離れる傾向があります。
さらに、エッジに沿った任意の位置で、平均して爪がエッジからどれだけ離れているかを把握することが有用であることを想像してください。
机の端に沿った場所を選んで、そこに手を置き、テーブルを横切って前方に直接手を伸ばし、手を直接あなたの方に引き戻し、次に離れて、爪の頭の上で手を前後に動かします。これらの爪から数十個のバンプが発生します-手の幅の狭いもの(エッジから直接離れ、机の左端から一定の距離にあるため)、セクション、またはストリップ、幅約10センチメートル。
アイデアは、その小さなセクションで机の端から爪までの平均距離を計算することです。直観的には衝突の真ん中にありますが、机の手幅のセクションで各爪までの距離を測定すれば、それらの平均を簡単に計算できます。
たとえば、頭が机の端に沿ってスライドし、軸が机の反対側に向かっているが、机のすぐ上にあるため、左にスライドするときに釘を打たないTスクエアを使用できますまたは正しい-所定の釘を渡すと、Tスクエアのシャフトに沿った距離を取得できます。
そのため、エッジに沿った場所の進行において、私たちに近づいたり離れたりする手幅のストリップのすべての釘を見つけ、それらの平均距離を見つけるというこの演習を繰り返します。おそらく、デスクをエッジに沿って手幅のストリップに分割します(したがって、すべての爪はちょうど1つのストリップで検出されます)。
次に、このようなストリップが21個あり、最初は左端に、最後は右端にあると想像してください。私たちがストリップを横切って進むにつれて、手段は私たちの机の端からさらに離れます。
これらの手段は、x(左端からエッジに沿った距離)、つまりE(y | x)が与えられた場合のy(私たちの距離)の期待の単純なノンパラメトリック回帰推定量を形成します。具体的には、これはビニングされたノンパラメトリック回帰推定量であり、回帰グラフとも呼ばれます
これらのストリップの平均が定期的に増加する場合、つまり、ストリップを移動するのと同じ平均値が通常、ストリップごとに増加する場合、yの期待値が線形であると仮定することにより、回帰関数をよりよく推定できます。 xの関数-すなわち、xを与えられたyの期待値は定数にxの倍数を加えたものである。ここで、定数は、xがゼロのときに釘が配置される傾向がある場所を表し(多くの場合、左端に配置する必要はありませんが、そうである必要はありません)、xの特定の倍数は平均がどれくらい速いかを示します右に1センチ(たとえば)移動すると変化します。
しかし、そのような線形関数を見つける方法は?
各ネイルヘッドに1つのゴムバンドをループし、デスクの真上、爪の上にある長く細い棒にそれぞれを取り付けて、各ストリップの「中央」の近くのどこかに置くと想像してください。ために。
私たちは、バンドが私たちに向かう方向と離れる方向(左または右ではない)にのみストレッチするようにバンドを取り付けます-スティックと直角にストレッチの方向を作るために自分自身に対して左に引っ張りますしかし、ここではそれを防ぎます。そのため、それらのストレッチの方向は、デスクの端に向かう方向またはデスクの端から離れる方向にのみ残ります。ここで、バンドが各爪に向かって引っ張るときにスティックを落ち着かせ、スティックに近い爪よりも強く引っ張る(より伸びたゴムバンドで)対応して強く引っ張ります。
次に、スティックを引っ張るすべてのバンドの結合結果は、(理想的には、少なくとも)スティックを引っ張って、伸ばされたゴムバンドの長さの二乗の合計を最小にすることです。テーブルを直接横切るその方向では、テーブルの端から任意のx位置でのスティックまでの距離は、xが与えられた場合のyの期待値の推定値になります。
これは基本的に線形回帰の推定値です。
さて、爪の代わりに、大きな木からぶら下がっている多くの果物(おそらく小さなリンゴのような)があり、地面上の位置によって異なるため、地上の果物の平均距離を見つけたいと思います。この場合、地上の高さは前方に行くと大きくなり、右に移動すると少しずつ大きくなることを想像してください。したがって、通常、前方に進むたびに平均高さがほぼ同じ量だけ変化し、また、rightは平均をほぼ一定の量だけ変更します(ただし、この平均のステップ右への変化量は、ステップフォワードの変化量とは異なります)
前方または右側に進むにつれて平均高さがどのように変化するかを把握するために、果物から薄い平らなシート(おそらく非常に硬いプラスチックの薄いシート)までの垂直距離の2乗の合計を最小化すると、 2つの予測子を持つ線形回帰-重回帰。
これらは、プロットが理解するのに役立つ唯一の2つのケースです(それらは、先ほど説明した内容を迅速に表示できますが、同じアイデアを概念化するための基礎があることを願っています)。これらの最も単純な2つのケースを超えて、数学のみが残っています。
住宅価格の例を見てみましょう。デスクの端に沿った距離ですべての家の面積を表すことができます-右端近くの位置として最大の家のサイズを表し、他のすべての家のサイズは特定のセンチメートルがいくつかを表す左の位置になります平方メートルの数。現在、距離はセール価格を表しています。最も高価な家を、机の一番端近くの特定の距離(いつものように、椅子から一番遠い端)として表し、離れた1センチメートルごとにいくつかのリアルを表します。
現時点では、デスクの左端が0の家の面積に対応し、近端が0の家の価格に対応するように表現を選択したと想像してください。次に、各家に釘を入れます。
これは必ずしもスケールの適切な選択ではありませんが、インターセプトなしのモデルを選択するとこれが行われるため、エッジの左端の近くにはおそらく爪がありません(ほとんどが右に向かって離れている可能性があります)それを議論するより良い方法。
今、あなたのモデルでは、スティックを机の近くの端の左隅にある紐のループに強制的に通過させます-したがって、フィットしたモデルに面積ゼロの価格ゼロを強制しますが、これは自然に見えるかもしれませんが、すべての販売に影響する価格のかなり一定した要素。次に、切片をゼロとは異なるものにするのが理にかなっています。
いずれにせよ、そのループを追加すると、前と同じラバーバンドのエクササイズがラインの最小二乗推定値を見つけます。