線形回帰を学習する理由

13

2つのランダム変数と与えられると、それらの「相関係数」計算し、これら2つのランダム変数間の最適なラインを形成できます。私の質問はなぜですか？ $\xi$ $\eta$ $c$

1）ランダム変数、とあります。これらは最悪の方法で依存しています。つまり、あり、です。線形回帰に沿って考えるだけなら、これに完全に盲目になるでしょう。 $\xi$ $\eta$ $\xi = f(\eta)$ $c=0$

2）特に線形なのはなぜですか？ランダム変数間に存在できる他の種類の関係があります。なぜ他のすべてからその1つを選抜するのですか

regression

— ニコラス・ブルバキ
ソース

18

これは、時々釘を見つけたときにドライバーを所有している理由を尋ねるようなものです。

— Sycoraxが復活モニカ言う

6

また、そこに人がいるという前提を想定しているように見えるだけで、線形回帰気には：「1の場合のみ、線形回帰に沿って考えている」、「なぜ、シングルその1つの他のすべてのアウト」。これは私にとってはストローマンのように思えますが、もちろん、ただ1つのツールまたはパースペクティブを遵守するのはばかげています。

— マシュードゥルーリー

7

「特定の」線形とは、実際には次の線形結合に関するものです。、実際には非常に一般的な基底関数のものです。

— GeoMatt22

2

@MatthewDruryストローマンは存在せず、私は何も想定していません。メソッドの弱点を説明するために、思考の病理学的極端なケースを使用して質問するだけです。なぜ私はそれを仮定すると仮定しますか？回帰は統計学者にとって非常に大きなトピックです。何がそんなに特別なのか、あまり勉強されていないのがわかりません。

— ニコラスブルバキ

8

この質問に懸命に取り組んでいる人のために：線形回帰について最初に学び、「仮定の1つは線形効果の仮定」と言われたとき、あなたは忘れていたと思います。あなたは「しかし、効果は決して線形ではありません！」と思いました。多くのことを熟考した後、これにもかかわらず、線形回帰は依然として理解され使用される基本的なツールであると確信しました。さあ、熟考する前に自分をリセットしてください。すべての統計の学生が検討に多くの時間を費やす必要があるのは素晴らしい質問だと思います。

— クリフAB

9

すべての関係がそれ自体線形ではないことに同意しますが、かなり多くの関係を線形近似することができます。テイラー級数やフーリエ級数などの数学でこのようなケースが多く見られます。ここで重要なのは、geomatt22がコメントで述べたように、一般に非線形データを変換し、基底関数で何らかの変換を適用し、関係。大学が「複数の線形回帰モデル」（単純回帰モデルを含む）のみに対処する理由は、それらが線形でもあるより高度なレベルのモデルの構成要素であるためです。

数学的に言えば、特定の線形近似がヒルベルト空間で密であることを証明できれば、その近似を使用して空間内の関数を表すことができます。

— デヨン・リム
ソース

2

丁度。他の誰もそれを言及しませんでしたが、この答えが示すように、一般的に、関係を線形化するために変数に常に変換を適用できます。さらに：a）線形回帰のグローバルな最大値を見つけるのは簡単です。b）線形回帰に基づくロジスティック回帰を知っていれば、ニューラルネットワークを含む他の多くのモデルを理解しやすくなります。

— リカルドクルス

7

参照しているモデルである単純な線形回帰、別名「最適な線」（ここではモデルと推定方法を混同しています）は、確かに非常に単純です（名前のとおり）。なぜ勉強するのですか？多くの理由がわかります。以下では、ランダム変数の概念が少なくとも非公式に導入されたと仮定します。これは、質問で言及したためです。

教育的：もちろん、2次モーメントが有限の実数値のランダム変数がヒルベルト空間を形成することは明らかです。確率論を最初に研究したとき、それはすでに明白だったのかもしれません。しかし、統計は数学の学生だけに教えられているわけではありません。物理学から経済学、コンピュータ科学、社会科学など、より多くの人々がいます。彼らは線形代数に費やされたかもしれないし、されなかったかもしれません、そして最初の場合でさえ、彼らは数学コースのより抽象的な観点からそれを見なかったかもしれません。これらの学生にとって、ランダム変数を別のランダム変数で近似するという概念は、それほどすぐではありません。単純な線形モデルの基本的な特性、つまり、誤差と予測子が直交確率変数であるという事実でさえ、彼らにとって時々驚くことです。ランダム変数（「厄介な」オブジェクト！確率空間から測定可能な空間までの測定可能な関数）の間に「角度」を定義できるという事実は、新入生には必ずしも明らかではありません。したがって、ベクトル空間の研究が古き良きユークリッド平面から始まる場合、統計モデルの研究を最も単純なものから始めるのは理にかなっていますか？
$\xi = \beta_0+\sum_{i=1}^N \beta_i \eta_i +\epsilon$ $\xi = \sum_{i=0}^N \beta_i \phi(\eta_i) +\epsilon$
実用的：単純な線形回帰の成功したアプリケーションが多数あります。経済学におけるオークンの法則、物理学におけるフックの法則、オームの法則、チャールズの法則、血圧と医学の年齢の関係（名前があるかどうかはわかりません！）はすべて、程度の異なる線形回帰の例です正確さ。

— DeltaIV
ソース

4

さらなる理由は、回帰が統一された処理を提供する素敵な方法です ANOVAのようなテクニックのをです。私にとって、ANOVAの通常の「基本的な」治療法はかなりあいまいに見えますが、回帰ベースの治療法は非常に明確です。これは、回帰モデルが「基本的な」処理では暗黙的で未検査であるといういくつかの仮定を明示的に行う方法と関係があると思われます。さらに、このような統一された視点によって提供される概念の明確さには、統計ソフトウェアにメソッドを実装するときが来ると、同様の実際的な利点が伴います。

この原則は、ANOVAだけでなく、制限付き3次スプラインのような拡張機能にも適用されます。これは、特に2番目の質問に対処します。

— デビッド・C・ノリス
ソース

3

線形回帰の人気の理由の1つは、その解釈可能性です。つまり、技術に詳しくない人でも、ほんの少しの説明でパラメーター係数を理解できます。これは、出力または予測のエンドユーザーが数学/統計を深く理解していない可能性があるビジネス状況で、大きな価値を追加します。

はい、この手法には（すべてのアプローチと同様に）仮定と制限があり、多くの場合、最適な方法とは言えません。しかし、線形回帰は非常に堅牢であり、仮定に違反した場合でも非常にうまく機能することがよくあります。

これらの理由から、勉強する価値は間違いありません。

— B.フロスト
ソース

-2

何かが関連していないかもしれません。

2つのシリーズがある場合 $x$ そして $y$ それ $cov(x,y) = 0$ 、そしてあなたがの間に疑いがある場合 $x$ そして $y$ 。間にプロットを作成できます $y$ そして $x$ 彼らの関係を調べるために。

— 朱金玄
ソース