なぜ垂直距離ですか？

11

OLSの推定に、水平距離ではなく、ポイントからラインまでの垂直方向の偏差が含まれるのはなぜですか？

least-squares

— user333
ソース

1

古い質問ですが、xでパラメータ化された確率分布のサンプルとしてデータを表示することは有用だと思います

— Bendy

12

OLS（通常の最小二乗）は、水平距離によって表される値が実験者によって事前に決定されているか、または（垂直距離に対して）高精度で測定されていることを前提としています。水平距離の不確実性の問題がある場合は、OLSを使用するのではなく、変数内エラーモデルまたはおそらく主成分分析を調べる必要があります。

— whuber
ソース

「直交回帰」は、汚染された横座標と縦座標を処理する方法を探すときに遭遇する可能性があるもう1つの問題です。

— JMは統計家ではありません。

+1これはまだ統計的にのみニッチです。より複雑な最小二乗法（Xの変動性を追加するだけでなく、エラー近似に基づくポイントの異なるペナルティも）は、実験物理学では一般的です。ROOTフレームワークにはそのようなものが数十あります。

1

興味深い質問。私の答えは、OLSモデルをフィッティングしているとき、私たちは暗黙のうちに主に手元の従属変数-「Y vs X」の「Y」を予測/説明しようとしているということでしょう。そのため、私たちの主な関心事は、結果に関して、適合ラインから実際の観測までの距離を最小化することです。つまり、垂直距離を最小化することです。もちろん、これは残差を定義します。

また、最小二乗式は、他のほとんどの競合する方法よりも簡単に導出できるため、おそらくそれが最初に採用されたのです。：P

「whuber」が上記に言及しているように、ベストフィットラインをフィッティングするときに、XとYを等しく強調して扱う他のアプローチがあります。私が知っているそのようなアプローチの1つは、「主線」または「主曲線」回帰です。これは、点と線の間の直交距離を最小化します（フィットした線に対して90度にある垂直誤差線の代わりに）。。以下に参考資料を1つ掲載します。それは長いですが、非常にアクセスしやすく、啓発的です。

これが役に立てば幸い、ブレンデン

トレバー・ハスティ。Principal Curves and Surfaces、博士論文、スタンフォード大学; 1984

— ブレンデン
ソース

1

設計された実験にも関連している可能性があります-xが実験計画の一部である制御された量である場合、決定論として扱われます。一方、yは結果であり、ランダムな量です。xは連続量（たとえば、いくつかの薬物の濃度）である可能性がありますが、0/1の分割である可能性があります（yがガウスであると仮定して、2標本のt検定が行われます）。xが連続量の場合、測定エラーが発生する可能性がありますが、通常これがyの変動性よりもはるかに小さい場合は無視されます。

— クリス・ブランズドン
ソース