プロットと線形代数を使用せずに単純な線形回帰を実行できますか?


47

私は完全に盲目で、プログラミングの経験があります。

私がやろうとしているのは、機械学習を学ぶことです。これを行うには、まず線形回帰について学ぶ必要があります。この主題について私が見つけているインターネット上のすべての説明は、最初にデータをプロットします。グラフやプロットに依存しない線形回帰の実用的な説明を探しています。

単純な線形回帰の目的についての私の理解は次のとおりです。

単純な線形回帰は、一度与えれXば、の最も近い推定値を提供する式を見つけようとしていますY

したがって、私が理解しているように、予測変数(たとえば、平方フィートの家の面積)を独立変数(価格)と比較する必要があります。私の例では、おそらくその地域から家の価格を計算するための最良の式を取得する非視覚的な方法を作成できます。たとえば、近所の1000軒の住宅の面積と価格を取得し、価格をその面積に分割するとしますか?結果(少なくとも私の住んでいるイランでは)は非常にわずかな変動しかありません。したがって、おそらく次のようなものが得られます。

Price = 2333 Rials * Area of the house

もちろん、データセット内の1000の家すべてを調べ、上記の式に面積を入れ、推定値を実際の価格と比較し、結果を2乗する必要があります(分散が互いに相殺されないようにするためです)そして、数字を取得2333し、エラーを減らすためにをいじり続けます。

もちろん、これはブルートフォースオプションであり、おそらくエラーを計算して最適なオプションに到達するまでに時間がかかりますが、私が言っていることはわかりますか?グラフ、線、プロット上の点、または既存のデータに線を当てはめる最良の方法については何も言いませんでした。

では、なぜ散布図と線形代数が必要なのでしょうか?非視覚的な方法はありませんか?

最初に、私は自分の仮定に正しいですか?そうでない場合は、修正したいと思います。しかし、私がそうであるかどうかにかかわらず、線形代数をいじることなく式を思いつく方法はありますか?

説明とともに例を得ることができれば、それを本当に感謝します。そうすれば、テキストと一緒にそれを理解できます。


2
しかし、あなたはビジョンを引き継ぐことができる空間的な想像力を持っていますか?はいの場合、散布図は何らかの方法で想像できると思います。私は、回帰の本質が命題的思考(口頭など)によってのみ捕捉できるとは思わない。
ttnphns

3
あなたの数学の背景は何ですか?単純線形回帰と呼ばれるウィキペディアのページはほとんどがテキストであり、最初の段落でかなり明確な説明があると思います。その記事はあなたが探している詳細レベルと比較してどうですか?
シャドウトーカー

3
私はそれについて考え続け、私が立ち上がることができるかどうかを確認しますが、すぐに、解決策のない方程式を解くと回帰について考えます。すべてのデータポイントは、リグレッサー(家の領域)によって誤って予測されます。エラーを可能な限り許容できる式を探しています。
アントニ・パレラダ16

8
すばらしい質問です。障害のある人にコンセプトを説明することについてもっと考える必要があります
-Aksakal

4
プロットを使用する必要はありません。実際、多重線形回帰(多くの予測子を使用した回帰)の場合、次元空間をプロットすることはできません。ただし、線形代数は引き続き機能します。線形回帰に関係するすべての線形代数式は、単純なスカラー数の演算に還元できます。あなたがあなたの正気を評価するなら、あなたはただそのように手でそれをしたくありません。p+1
推測

回答:


17

はい、その上に。エラーを最小限に抑える正しいものが見つかるまで、2333をいじり続ける必要があります。しかし、「正しい」ものを見つける数学的な方法があります。その番号をと呼びましょう。、二乗誤差の合計(SSE)は関数です。なぜなら、選択ごとに、各推定値がオフになる量を計算し、それを二乗して合計することができるからです。βEββ

二乗誤差の総和を最小化する何ですか?これは単なる計算の問題です。よるの導関数をし、ゼロに等しく設定します。これは方程式を与えます。2次導関数が正であることを確認して、それが最小であることを確認します。したがって、エラーを最小化する方程式が得られます。E β β ββEβββ

この方法で導出すると、合計としてが得られます。推定の線形代数形式を書き出すと、これは同じことであることがわかります。β

編集:ここに、このタイプの派生に関するいくつかのメモへのリンクがあります。数学は少し厄介になりますが、核となるのは微積分の問題です。


ああ、神様。最後に!これを計算する非線形代数の方法。あなたの答えであなたが話している概念は頭にありますが、私は間違いなくこの考え方をよりよく理解するために派生物を調べます。
パーハムダスダー16

1
かなり初歩的なレベルでそれを説明するいくつかのメモにリンクしました。「最小値を見つける」などの問題を解決する方法は、導関数を取得してゼロに設定することなので、どの答えにも計算が必要だと思います。直観的には、これは丘の最小(または最大)が丘が平らな場所になることを言っているだけです(傾斜が丘の側面に沿って最高だからです!)。微分=勾配。そのため、を変更するとがほとんど変化しなくなり、最小値(または最大値)に近づきます。最大値ではないことを確認する必要があります!)。β EE(β)βE
クリスラッカッカス16

4
このアイデアにより、機械学習が可能になります。機械学習の基本的な方法の1つは、適切な勾配です。それは基本的に「斜面をたどる」という意味です。丘が最も急な方向にボールを転がし続けると、最小値になります。だから勾配まともな方法はこれを正確に行うことです:を変更する方法がエラーを最も減少させる原因を見つけて、そのようにします!β
クリスラッカッカス16

2
最小二乗回帰では、答えである方程式を解くことができるので、勾配をまともにする必要はありませんが、これは機械学習とは何かを理解する良い方法を提供します。つまり、エラーを測定する方法を選択し、エラー方程式を最小化する方法を見つけることです。結果は、データから学習した「最良の」推定式です。これが機械学習への道のりに役立つことを願っています!
クリスラッカワカス16

10

あなたの理解は近いですが、いくつかの拡張機能を必要とします:単純な線形回帰はあなたが与える一度という式見つけようとしているXことに、最も近い推定をご提供するだろうY との線形関係に基づいて、 X およびを Y

あなたの住宅価格の例は、少し拡張すると、なぜ散布図などになるのかを示しています。まず、価格を地域で割るだけではうまくいきません。たとえば、私の故郷の土地価格では、建設に関する規制により、家を建てることができる土地の区画を所有するだけで価値が高くなります。したがって、地価は単に面積に比例するわけではありません。区画の面積が増えるたびに、区画の値も同じように増加する可能性がありますが、(神話上の)区画の面積が0に達すると、土地の区画を所有するだけの価値を表す見かけの価格が関連付けられます。それは構築のために承認されています。

それはまだ面積と値の間の線形関係ですが、リレーションにはインターセプトがあり、区画を所有しているだけの値を表しています。それにもかかわらず、これが線形関係になるのは、面積、勾配または回帰係数の単位変化あたりの値の変化が、面積または値の大きさに関係なく常に同じであるということです。

そのため、区画面積と値を関連付ける切片と勾配の両方を何らかの方法で既に知っていて、その線形関係の値を最近の売上で表される実際の値と比較するとします。予測値と実際の値が一致することはほとんどありません。これらの不一致は、モデルのエラーを表し、予測される関係の周りに値のばらつきが生じます。面積と値の間の予測された直線関係の周りにクラスター化されたポイントの散布図を取得します。

最も実用的な例では、切片と勾配がまだわからないため、データからそれらを推定する必要があります。それが線形回帰の試みです。

最尤推定の観点から、線形回帰と関連モデリングについて考える方が良いかもしれません。これは、データを最も可能性の高いものにするモデル内の特定のパラメーター値の検索です。質問で提案する「ブルートフォース」アプローチに似ていますが、最適化しようとしているものの尺度が多少異なります。最新の計算方法と検索パターンのインテリジェントな設計により、非常に迅速に実行できます。

最尤推定は、グラフィカルなプロットを必要としない方法で概念化することができ、すでに考えているように見えます。線形回帰の場合、標準の最小二乗回帰と最尤法の両方が、切片と勾配の同じ推定値を提供します。

最尤法で考えることには、厳密な線形関係が存在しない他の状況にさらに拡張できるという追加の利点があります。良い例は、予測変数に基づいて発生するイベントの確率を推定しようとするロジスティック回帰です。これは最尤法で実現できますが、標準の線形回帰とは異なり、ロジスティック回帰の切片と勾配を生成する単純な方程式はありません。


1
「線形回帰」の「線形」は「パラメータの線形」を意味すると考えたため、独立変数としてを使用できますが、各独立変数の係数は線形に表示される必要があります?x2

@fcopあなたは正しいです。OPが提供する例から始めました。この例では、値と面積の間に比例関係がありました。べき乗やログなどの変換が使用される場合、元の予測変数の変換された値を回帰の実際の独立変数として考える傾向があります。暗黙のエラーモデルには違いがありますが、実際にはほとんど用語の違いであると思います。
-EdM

とにかく、それは良い答えでした(+1)

6

まず第一に、私の賛辞。誰もが統計に苦労することは困難です(私は医師ですので、あなたは私にとってどれほど難しいか推測できます)...

線形回帰の視覚的な説明ではなく、線形回帰触覚的な説明を提案できます。

あなたがドアから部屋に入っていると想像してください。部屋はほぼ正方形で、ドアは左下隅にあります。次の部屋に行きたいと思っています。その部屋のドアは、ほぼ右上隅にあります。隣の部屋がどこにあるのか正確にはわからないと想像してください。彼らはどちらも見ることができませんが、彼らの近くに何があるかをあなたに伝えることができます。この人々に導かれて、あなたが隣のドアに到達するために取る最後の道は、これらの人々の間の距離を最小化する回帰線に似ており、正しい道に近い場合(そうでない場合)にドアに向かいます。


1
(+1)私はあなたの例をとても気に入っており、この問題に対して非常によく似たイラストを使用したのは、偶然の一致によるものです。
ティム

「部屋は多かれ少なかれ正方形です」-目の不自由な人にとって正方形とは何ですか?この文を使用して、最初の場所に戻りました。
アクサカル

4
私は同意しません。一方向に10フィート歩いた後、90度(腕幅など)回転させ、再び10フィート歩いてもらいます。正しく表示できない場合は、正方形です。
Joe_74

@ GiuseppeBiondi-Zoccai、温度のチャンバー内の圧力のモデルを構築している場合、なぜ正方形と線および他の空間概念を表示する必要があるのですか?あなたが盲目でない場合は確かに便利ですが、視覚障害者にとっては、これらの空間的アナロジーは目の前の問題について何も表に出さず、説明を複雑にするだけ
です-Aksakal

2
繰り返しますが、私は丁寧に同意しません...私の仮定は、視覚障害者が特に触覚空間スキルを開発したということです。とにかく、動作する例は問題ありません。
Joe_74

3

あなたの質問に役立つ素晴らしい例は、Andrew GelmanとDavid K. Park(2012)によって提供されました。住宅面積場合、住宅の価格を予測する例に固執しましょう。このために、単純な線形回帰モデルを使用しますXYX

Y=β0+β1X+ε

簡単にするために、切片忘れましょう。このスレッドをチェックして、なぜ重要なのかを知ることができます。このデータは散布図で視覚化できます。散布図とは何ですか?2次元空間(部屋の場合もあります)を想像してください。データポイントは場所の周りに「散乱」し、両方の変数の値が軸と軸の位置をマークします。既に知っていることは、それが何らかの形で線形回帰モデルに変換されるということです。、Y Xβ0yx

わかりやすくするために、この例をさらに単純化してみましょう-ゲルマンとパークがしたように。彼らが提案した単純化は、を分割することですβ 1X変数、つまり家の面積を「小」、「中」、「大」の3つのグループに分けます(これらの家は最適な決定方法を説明しますが、これはそれほど重要ではありません)。次に、「小さな」家の平均サイズと「大きな」家の平均サイズを計算します。「小さな」家と「大きな」家の平均価格も計算します。次に、データを2つのポイントに削減します。スペースに散在する大小の家のデータポイントのクラウドの中心で、「中」の家に関するすべてのデータポイントを削除します。2次元空間に2つの点が残っています。回帰直線は、点を結ぶ線です。1つの点から別の点への方向と考えることができます。 β1

同じことが、空間の周りに散らばるより多くのポイントがある場合にも起こります。回帰直線は、すべてのポイントまでの平方距離を最小化することで、彼女の道を見つけます。そのため、線は空間に点在する点群の中心を正確に通ります。2つのポイントを接続する代わりに、無制限の数のこのような中心ポイントを接続すると考えることができます。


ゲルマン、A。、およびパーク、DK(2012)。予測因子を上または第3四半期と下の四半期または3分の1に分割します。アメリカの統計学者、62(4)、1-8。


3

簡単な答えは、はいです。飛行機またはジャベリンの全体または表面だけを構成するすべてのポイントの中央を通る線は何ですか?それを描く; あなたの頭の中や写真の上に。あなたは、その線からの合計最小(点間)偏差に寄与するすべての点(プロットするかどうかに関係なく)からの孤立した線を探しています。暗黙的に常識によって暗示的に行う場合、数学的に計算された結果を(非常によく)近似します。そのために、目を煩わせ、常識をなさないかもしれない公式があります。工学と科学における同様の形式化された問題では、散布はまだ目で予備的な評価を招きますが、それらの分野では、線が線である「テスト」確率を考え出すことになっています。そこから下り坂になります。しかしながら、(a)かなりの納屋と(b)その中に散らばっている家畜の境界を(実際に)拡大するように機械に教えようとしているようです。不動産と居住者の写真(グラフィカル、代数的)に相当するものをマシンに与えると、それが何をしたいのか(ブロブを2つにきちんと分割し、散布を計算して正中線)を把握できるはずです。適切な統計の教科書(教師や教授に複数の名前を付けるように頼みます)は、そもそも線形回帰の全ポイントと、最も単純な場合(単純ではない場合に至るまで)の方法の両方を説明する必要があります。いくつかのプレッツェルを後で、あなたはそれをパットダウンするでしょう。不動産と居住者の写真(グラフィカル、代数的)に相当するものをマシンに与えると、それが何をしたいのか(ブロブを2つにきちんと分割し、散布を計算して正中線)を把握できるはずです。適切な統計の教科書(教師や教授に複数の名前を付けるように頼みます)は、そもそも線形回帰の全ポイントと、最も単純な場合(単純ではない場合に至るまで)の方法の両方を説明する必要があります。いくつかのプレッツェルを後で、あなたはそれをパットダウンするでしょう。不動産と居住者の写真(グラフィカル、代数的)に相当するものをマシンに与えると、それが何をしたいのか(ブロブを2つにきちんと分割し、散布を計算して正中線)を把握できるはずです。適切な統計の教科書(教師や教授に複数の名前を付けるように頼みます)は、そもそも線形回帰の全ポイントと、最も単純な場合(単純ではない場合に至るまで)の方法の両方を説明する必要があります。いくつかのプレッツェルを後で、あなたはそれをパットダウンするでしょう。適切な統計の教科書(教師や教授に複数の名前を付けるように頼みます)は、そもそも線形回帰の全ポイントと、最も単純な場合(単純ではない場合に至るまで)の方法の両方を説明する必要があります。いくつかのプレッツェルを後で、あなたはそれをパットダウンするでしょう。適切な統計の教科書(教師や教授に複数の名前を付けるように頼みます)は、そもそも線形回帰の全ポイントと、最も単純な場合(単純ではない場合に至るまで)の方法の両方を説明する必要があります。いくつかのプレッツェルを後で、あなたはそれをパットダウンするでしょう。


re:Silverfishの私の投稿前のコメント(このコメントにコメントを追加する簡単な方法はないようです)、はい、OPは盲目で、機械学習を学習しており、プロットやグラフなしで実用性を要求しましたが、彼は「視覚化」と「視覚」を区別し、頭の中に真の写真を視覚化し、彼の周りの世界(家など)のあらゆる物体の基本的な考え方を持っているので、彼の頭の中で数学的にもそうでなくても描画し、おそらく2Dと3Dの良い見た目を紙に置くことができます。最近では、物理的な点字だけでなく、自分のコンピューターの電子音声(フォーラム、辞書など)で、さまざまな書籍やその他のテキストを利用できます。視覚障害者向けの多くの学校には、かなり完全なカリキュラムがあります。飛行機やジャベリンではなく、ソファや杖が必ずしも適切であるとは限らず、統計テキストがおそらく利用可能です。彼は、マシンがどのように回帰をプロットおよびグラフ化または計算することを学び、次にマシンが回帰を把握するために同等の(そしてより基本的な)ことを学ぶかを心配しません(マシンがそれを表示し、それに反応し、従うかどうか)それを避けてください。本質的な推力は(視覚障害者および視力のある学生に関して)、視覚的でないものを視覚化する方法(ユークリッドとピタゴラスの前から、描かれた線のインスタンスではなく直線性の概念など)、および視覚化する方法です。特別な種類の線形性の基本的な目的(回帰、その基本点が最小偏差に最も適合する、数学と統計の初期から)。ラインプリンターの回帰のFortran出力は、精神的に同化されるまでほとんど「視覚的」ではありませんが、回帰の基本的なポイントでさえ想像上のものです(目的のために作成されるまで存在しない行)。


2
おそらく私はこの答えを誤解しているかもしれませんが、「あなたの頭の中や絵の上に描いてください」という質問のポイントを見逃しているようです。元の質問は完全に盲目な人によって提起され、回帰に近づく視覚的な方法。
シルバーフィッシュ

@Silverfishの応答(コメントするには長すぎます)が上記の回答に編集されました

ありがとう。私はダウンボートは少し厳しいと思っていました(私ではありませんでした)が、この回答の言語選択のいくつかは不幸でした(たとえば、「目で」物事を行うことへの参照がいくつかあります)。それでも、なぜあなたは視覚と「心の目」を通して視覚化できるものとを区別したいのか理解できます。
シルバーフィッシュ

2
心の中で物事を視覚化できます。視覚化の同じ方法を使用していないというだけです。drawまたはを使用しないということではありませんvisualize。他の方法ではなく、コンセプトを使用して視覚化を導き出すだけです。これは数学の多くの場所で起こることがわかりました。難しい課題を説明するために、通常、学習者が実際の生活から知っている概念に計算を関連付けるのではなく、形状と画像が使用されます。
パーハムダスダー16

3

単純な回帰(単一の予測子によって予測される応答)を導入するためにプロットが普遍的に使用される理由は、それらが理解を助けるためです。

しかし、私は何が起こっているのかを理解するのに役立つかもしれない風味の何かを与えることができると信じています。ここでは主に、彼らが与える理解の一部を伝えることに焦点を当てます。これは、回帰について読む際に通常遭遇する他の側面のいくつかに役立つ可能性があります。したがって、この答えは主に投稿の特定の側面を扱います。

普通のオフィスデスクのような大きな長方形のテーブルの前に座っていると想像してください。

あなたはテーブルの前の通常の位置に座って、1つの長辺の真ん中にいます。このテーブルでは、多数の釘(かなり滑らかな頭)が上面に打ち込まれているため、それぞれが少し突き出ています(場所を感じるのに十分で、紐を結び付けるか、輪ゴムを取り付けるのに十分です) )。

これらの爪は机の端からさまざまな距離にあり、一端(左端など)に向かって、通常は机の端に近く、他端に向かって釘の頭を移動します。あなたの端から遠く離れる傾向があります。

さらに、エッジに沿った任意の位置で、平均して爪がエッジからどれだけ離れているかを把握することが有用であることを想像してください。

机の端に沿った場所を選んで、そこに手を置き、テーブルを横切って前方に直接手を伸ばし、手を直接あなたの方に引き戻し、次に離れて、爪の頭の上で手を前後に動かします。これらの爪から数十個のバンプが発生します-手の幅の狭いもの(エッジから直接離れ、机の左端から一定の距離にあるため)、セクション、またはストリップ、幅約10センチメートル。

アイデアは、その小さなセクションで机の端から爪までの平均距離を計算することです。直観的には衝突の真ん中にありますが、机の手幅のセクションで各爪までの距離を測定すれば、それらの平均を簡単に計算できます。

たとえば、頭が机の端に沿ってスライドし、軸が机の反対側に向かっているが、机のすぐ上にあるため、左にスライドするときに釘を打たないTスクエアを使用できますまたは正しい-所定の釘を渡すと、Tスクエアのシャフトに沿った距離を取得できます。

そのため、エッジに沿った場所の進行において、私たちに近づいたり離れたりする手幅のストリップのすべての釘を見つけ、それらの平均距離を見つけるというこの演習を繰り返します。おそらく、デスクをエッジに沿って手幅のストリップに分割します(したがって、すべての爪はちょうど1つのストリップで検出されます)。

次に、このようなストリップが21個あり、最初は左端に、最後は右端にあると想像してください。私たちがストリップを横切って進むにつれて、手段は私たちの机の端からさらに離れます。

これらの手段は、x(左端からエッジに沿った距離)、つまりE(y | x)が与えられた場合のy(私たちの距離)の期待の単純なノンパラメトリック回帰推定量を形成します。具体的には、これはビニングされたノンパラメトリック回帰推定量であり、回帰グラフとも呼ばれます

これらのストリップの平均が定期的に増加する場合、つまり、ストリップを移動するのと同じ平均値が通常、ストリップごとに増加する場合、yの期待値が線形であると仮定することにより、回帰関数をよりよく推定できます。 xの関数-すなわち、xを与えられたyの期待値は定数にxの倍数を加えたものである。ここで、定数は、xがゼロのときに釘が配置される傾向がある場所を表し(多くの場合、左端に配置する必要はありませんが、そうである必要はありません)、xの特定の倍数は平均がどれくらい速いかを示します右に1センチ(たとえば)移動すると変化します。

しかし、そのような線形関数を見つける方法は?

各ネイルヘッドに1つのゴムバンドをループし、デスクの真上、爪の上にある長く細い棒にそれぞれを取り付けて、各ストリップの「中央」の近くのどこかに置くと想像してください。ために。

私たちは、バンドが私たちに向かう方向と離れる方向(左または右ではない)にのみストレッチするようにバンドを取り付けます-スティックと直角にストレッチの方向を作るために自分自身に対して左に引っ張りますしかし、ここではそれを防ぎます。そのため、それらのストレッチの方向は、デスクの端に向かう方向またはデスクの端から離れる方向にのみ残ります。ここで、バンドが各爪に向かって引っ張るときにスティックを落ち着かせ、スティックに近い爪よりも強く引っ張る(より伸びたゴムバンドで)対応して強く引っ張ります。

次に、スティックを引っ張るすべてのバンドの結合結果は、(理想的には、少なくとも)スティックを引っ張って、伸ばされたゴムバンドの長さの二乗の合計を最小にすることです。テーブルを直接横切るその方向では、テーブルの端から任意のx位置でのスティックまでの距離は、xが与えられた場合のyの期待値の推定値になります。

これは基本的に線形回帰の推定値です。

さて、爪の代わりに、大きな木からぶら下がっている多くの果物(おそらく小さなリンゴのような)があり、地面上の位置によって異なるため、地上の果物の平均距離を見つけたいと思います。この場合、地上の高さは前方に行くと大きくなり、右に移動すると少しずつ大きくなることを想像してください。したがって、通常、前方に進むたびに平均高さがほぼ同じ量だけ変化し、また、rightは平均をほぼ一定の量だけ変更します(ただし、この平均のステップ右への変化量は、ステップフォワードの変化量とは異なります)

前方または右側に進むにつれて平均高さがどのように変化するかを把握するために、果物から薄い平らなシート(おそらく非常に硬いプラスチックの薄いシート)までの垂直距離の2乗の合計を最小化すると、 2つの予測子を持つ線形回帰-重回帰。

これらは、プロットが理解するのに役立つ唯一の2つのケースです(それらは、先ほど説明した内容を迅速に表示できますが、同じアイデアを概念化するための基礎があることを願っています)。これらの最も単純な2つのケースを超えて、数学のみが残っています。

住宅価格の例を見てみましょう。デスクの端に沿った距離ですべての家の面積を表すことができます-右端近くの位置として最大の家のサイズを表し、他のすべての家のサイズは特定のセンチメートルがいくつかを表す左の位置になります平方メートルの数。現在、距離はセール価格を表しています。最も高価な家を、机の一番端近くの特定の距離(いつものように、椅子から一番遠い端)として表し、離れた1センチメートルごとにいくつかのリアルを表します。

現時点では、デスクの左端が0の家の面積に対応し、近端が0の家の価格に対応するように表現を選択したと想像してください。次に、各家に釘を入れます。

これは必ずしもスケールの適切な選択ではありませんが、インターセプトなしのモデルを選択するとこれが行われるため、エッジの左端の近くにはおそらく爪がありません(ほとんどが右に向かって離れている可能性があります)それを議論するより良い方法。

今、あなたのモデルでは、スティックを机の近くの端の左隅にある紐のループに強制的に通過させます-したがって、フィットしたモデルに面積ゼロの価格ゼロを強制しますが、これは自然に見えるかもしれませんが、すべての販売に影響する価格のかなり一定した要素。次に、切片をゼロとは異なるものにするのが理にかなっています。

いずれにせよ、そのループを追加すると、前と同じラバーバンドのエクササイズがラインの最小二乗推定値を見つけます。


うわー、この長い空間的な答えに感謝します。それはたくさん説明しました。ありがとう。
パーハムダスダー16

2

よくホテルで手に入れるトースターに出会ったことがありますか。パンの一端をコンベアベルトの上に置き、もう一端でトーストとしてパンを出します。残念ながら、この安価なホテルのトースターでは、ヒーターがすべてランダムな高さと入り口からトースターへの距離に移動しています。ヒーターを動かしたり、ベルトの経路を曲げたりすることはできません(これは真っ直ぐで、これがリニアビットの出番です)が、ベルトの高さと傾斜を変更することができます。

すべてのヒーターの位置が与えられると、線形回帰により、全体の熱が最大になるようにベルトを配置するための正しい高さと角度がわかります。これは、線形回帰によりトーストとヒーター間の平均距離が最小化されるためです。

私の最初の休日の仕事は、線形回帰を手作業で行うことでした。あなたはそれをしたくないと言った人は正しいです!


2

線形回帰の私のお気に入りの説明は幾何学的ですが、視覚的ではありません。データセットを2次元空間内の点のクラウドに分割するのではなく、高次元空間内の単一の点として扱います。

家の面積と価格は1組の数値であり、2次元空間の点の座標と考えることができます。の家の面積および価格は、組の数字であり、点 2次元の空間での。便宜上、2次元の空間を「データ空間」と呼びます。データセットは、データ空間の単一ポイントです。ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

面積と価格の関係が完全に線形である場合、ポイントはデータ空間の非常に特殊な領域にあり、これを「線形シート」と呼びます。点 数字のとは変更できますが、はデータセットに表示されるのと同じ領域に固定されます。線形シートは2次元であるため、「シート」と呼んでいます。その上のポイントは、2つの座標およびによって指定されます。D

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ。線形シートがどのように形作られているのかを知りたい場合は、3次元空間全体に伸びた細い直線のワイヤーを想像してください。線形シートはそのようなものです。完全に平らであり、その寸法は、内部にあるスペースの寸法と比較して非常に低いです。

実際の近隣では、面積と価格の関係は完全に線形ではないため、点は線形シート上に正確に置かれません。ただし、線形シートに非常に近い位置にある場合があります。線形回帰の目標は、データ点最も近い線形シート上の点を見つけることです。その点は、データに最適な線形モデルです。DM(ρ,β)D

ピタゴラスの定理を使用すると、と間の距離の2乗が つまり、データポイントとモデルポイントの間の距離は、モデルの2乗誤差の合計です!モデルの総二乗誤差を最小化することは、モデルとデータ空間内のデータ間の距離を最小化することと同じです。M ρ β [ P 1 - ρ A 1 + β ] 2 + ··· + [ P 1000年 - ρ + β ] 2DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.

Chris Rackauckasが指摘したように、微積分はと間の距離を最小にする座標とを見つけるための非常に実用的な方法を提供します。β D M ρ β ρβDM(ρ,β)


1

@Chris Rackauckasと@EDMの回答がすぐに見つかります。プロットや通常の最小二乗推定の視覚的な説明を必要としない単純な線形回帰にアプローチする多くの方法があり、OLSを実行しているときに実際に何が起こるかについて非常に堅実な説明を提供します。

散布図を指示ツールとして使用して、オールドスクールのパラメトリックモデル、高度な機械学習、ベイジアンアルゴリズムなど、あらゆる種類の新しいモデリング手順を学習することで、特定の学習にかかる時間を短縮できるアルゴリズムはします。

グラフ化は、新しいデータセットを初めて使用するときの探索的データ分析にとっても非常に重要です。大量のデータを収集し、理論を練り上げ、モデルを慎重に計画し、実行したという状況がありましたが、結果として予測力が本質的にありませんでした。二変量関係をプロットすると、当て推量の一部を取り除くことができます。この例では、住宅価格が面積に線形に関連している可能性がありますが、関係は線形ではない可能性があります。散布図は、回帰で高次の項が必要か、線形回帰とは異なる方法を使用するか、何らかのノンパラメトリック法を使用するかを決定するのに役立ちます。


1

Google for Anscombe Quartet。

数値的に検査してもあまり差がない4組のデータを示しています。

ただし、視覚的な散布図を作成すると、違いが劇的に見えるようになります。

データ、回帰、または回帰なしを常にプロットする必要がある理由をかなり明確に示しています:-)


0

予測値と実際の値の差を最小限に抑えるソリューションが必要です。

つまり線形関係があると仮定します。y=bx+a

我々は、予測と実際の差かどうか気にしない正または負の誤差の分布と仮定し保有特定のプロパティをyyy

エラーの分布が正規分布していると仮定すると、この最小化問題に対する分析的解決策があることがわかります。差の二乗和は、最適なフィットを得るために最小化するのに最適な値です。ただし、通常の場合、正規性は必要ありません。

本当にそれだけではありません。

幾何学的な解釈は、平方和がラインからの散布図上のドットの距離の合計の形式で解釈されるため便利です。また、人間の目は、最適なフィットに対応する線を近似するのに非常に優れています。そのため、コンピュータを使用して適切にすばやく見つけることができるようになる前に便利でした。y=bx+a

現在は理解の助けとして残されていますが、線形回帰を本当に理解する必要はありません。

編集:エラーの仮定の正常性を、正確だがそれほど簡潔ではないリストに置き換えました。正規性は分析解を得るために必要であり、多くの実際のケースで想定できます。その場合、二乗和は線形推定器だけでなく、尤度も最大化します。

さらに誤差分布の正規性の仮定が成り立つ場合、二乗和は線形推定器と非線形推定器の両方で最適であり、尤度を最大化しています。


1
正規分布の仮定は、あなたが説明したものには必要ありません
-Aksakal

Plsはこの説明を確認しますstats.stackexchange.com/a/1516/98469
Diego

リンクは回答とは関係ありません。小さなサンプルプロパティまたはMLEに展開した場合は、正規分布の仮定を取り入れることができますが、答えのOLSの説明は正規分布を必要としません。実際、平方和を最小化するには、分布や統計はまったく必要ありません。それは純粋な代数です。
アクサカル16

重要なのは、なぜ他のメトリックではなく、平方和を最小化するのかということです。平方和を最小化する方法ではありません。
ディエゴ

二乗和の最小化は、正規分布とは関係ありません。それはあなたの損失関数です。この損失関数では、他のエラー分布を使用できます。小さいサンプルのパラメーター値などについて推論したい場合など、特定の場合に分布が必要です。この場合でも、他の分布を使用できますが、なぜ通常にこだわるのかわかりません。
アクサカル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.