線形回帰は時代遅れですか?[閉まっている]


12

現在、線形回帰のクラスにいますが、私が学んでいることは、現代の統計や機械学習のどちらにももはや関係がないという感覚を揺るがすことはできません。最近、非常に多くの興味深いデータセットが線形回帰の非現実的な仮定の多くに違反しているのに、単純または多重線形回帰の推論に多くの時間を費やしているのはなぜですか?代わりに、サポートベクターマシンまたはガウス過程を使用した回帰のような、より柔軟で最新のツールの推論を教えてみませんか?スペースで超平面を見つけるよりも複雑ですが、これは現代の問題に取り組むためのより良い背景を学生に与えませんか?


10
ドライバーはハンマーを時代遅れにしますか?または、それぞれが異なるタスクを実行しますか?
Sycoraxは回復モニカ言う

6
私はナイフ、のこぎり、いくつかの異なるドライバー、一対のペンチ、そしておそらく他のいくつかのものとして機能するマルチツールを持っていますが、これらのツールのいずれかが必要なとき、私は最後に到達します。それはピンチでのみ有用であり、決して「仕事に最適なツール」ではありません。
ダレン

7
実在の人々が直面する多くの多くの状況には、ノイズの非常に小さいデータセットが含まれます。多くの場合、より複雑なモデルは実行可能ではありませんが、少なくとも単純な線形モデルが少なくとも維持可能である時間のかなりの部分です。大規模なデータセット(およびそれらに関連する問題)は、進行中のデータ分析全体の一部として成長し続けますが、非常に小さなデータセットおよびそれらが依存する比較的単純な分析はなくなりません。それに加えて、より洗練されたツールは、単純なツールの上に、歴史的にだけでなく概念的に直接構築されます。
Glen_b -Reinstateモニカ

6
線形回帰が引き続き実用的である多くの状況に加えて、線形回帰がより高度な加法モデルの幅広いクラスについて学ぶ上で基本であることも指摘する価値があります。その点で、この質問は、微積分が算術を時代遅れにするかどうかを尋ねるようなものです。
ジェイコブソコラー

1
@Aksakal詳しく説明してください。ベイジアン最適化での使用はどうですか?
マークL.ストーン

回答:


24

線形回帰の仮定が現実的でないことは事実です。ただし、これはすべての統計モデルに当てはまります。「すべてのモデルは間違っていますが、一部は有用です。」

より複雑なモデルを使用できる場合、線形回帰を使用する理由はないという印象を受けていると思います。一般に、より複雑なモデルはオーバーフィットに対してより脆弱であり、より多くの計算リソースを使用するため、これは真実ではありません。たとえば、組み込みプロセッサまたはWebサーバーで統計を実行する場合は重要です。単純なモデルは、理解と解釈も簡単です。対照的に、ニューラルネットワークなどの複雑な機械学習モデルは、おおよそブラックボックスになる傾向があります。

線形回帰がいつか実用的でなくなったとしても(近い将来、非常に起こりそうにないように思われます)、より複雑なモデルは基礎として線形回帰に基づいて構築される傾向があるため、理論的には重要です。たとえば、正規化された混合効果のロジスティック回帰を理解するには、最初に単純な古い線形回帰を理解する必要があります。

これは、より複雑で、より新しく、より光沢のあるモデルが役に立たなかったり、重要でないと言っているわけではありません。それらの多くはそうです。しかし、より単純なモデルはより広く適用可能であるため、より重要であり、さまざまなモデルを提示する場合は、最初に提示するのが明らかに理にかなっています。「データサイエンティスト」などと呼ばれるが、信頼区間が実際にどのようなものであるかなど、基礎的なものすら知らない人々によって、最近行われた多くの不正なデータ分析があります。統計にならないでください!


「複雑なモデル」の意味を明確にできますか?OPは同じ意味ですか?
ハトシェプスト

1
@Hatshepsut実際には、単なる線形回帰またはその特殊なケースではないもの。OPは、例としてSVMとガウス過程モデルを示しました。混合モデル、ロジスティック回帰、およびペナルティ付き回帰に言及しました。他の例には、決定木、ニューラルネットワーク、MARS、ベイジアン階層モデル、および構造方程式モデルがあります。あるモデルが別のモデルよりも複雑であるかどうか、またはモデルとして正確に数えるものをどのように決定するかを尋ねている場合、それらは相互検証された質問です。
Kodiologist

「オーバーフィット」; 9次多項式を使用して、指数の加重和であることが判明したものに適合するようにします。プロットがノイズレベルのすぐ上の機器エラーを再現したので、非常にうまく適合しました。その多項式を実際に使用することでもっとうまくいったのではないかと思います。
ジョシュア

7

一般に線形回帰は時代遅れではありません。LASSO関連の方法に関する研究に取り組んでいる人々や、複数のテストとの関連性などはまだ残っています。EmmanuelCandesとMalgorzata BogdanをGoogleで検索できます。

特にOLSアルゴリズムについて質問している場合、彼らがこれを教えている理由の答えは、その方法が非常に単純であるため、閉形式の解決策があるということです。また、リッジ回帰やlasso / elasticnetを使用したバージョンよりも単純です。単純な線形回帰のソリューションに直観/証明を構築してから、追加の制約でモデルを充実させることができます。


3

私は回帰は古くはないと思います。データ科学者が現在直面しているいくつかの問題にとっては些細なことと考えられるかもしれませんが、それでも統計分析のABCです。最も単純なモデルがどのように機能しているかわからない場合、SVMが正常に機能しているかどうかをどのように理解する必要がありますか?このようなシンプルなツールを使用することで、クレイジーな複雑なモデルに飛び込む前にデータを調べ、さらに分析に使用できるツールと使用できないツールを深く理解する方法がわかります。教授と私の同僚とこの会話をした後、彼女は生徒に複雑なモデルを適用するのに優れているが、レバレッジが何であるか理解できないか、データの何が悪いのかを理解するための簡単なqqプロットを読むことができないと言った。多くの場合、最もシンプルで読みやすいモデルには美しさがあります。


3

短い答えはノーです。たとえば、MNISTデータを使用して線形モデルを試しても、精度の約90%が得られます!

長い答えは「ドメインに依存する」でしょうが、線形モデルが広く使用されています。

  • 特定の分野、たとえば医学研究では、1つのデータポイントを取得するのは非常に高価です。そして、分析作業は何年も前と同様です。線形回帰は依然として非常に重要な役割を果たしています。

  • モーデン機械学習、たとえばテキスト分類では、他の手の込んだモデルもありますが、線形モデルは依然として非常に重要です。これは、線形モデルが非常に「安定」しているため、データを過剰に適合させたくないためです。

最後に、線形モデルは実際に他のほとんどのモデルの構成要素です。よく学ぶことは将来的にあなたに利益をもたらすでしょう。


2

実際には、作業にもっと複雑なモデルを使用している場合でも、線形回帰は便利です。重要な点は、線形回帰は理解しやすいため、より複雑なモデルで何が起こっているかを概念的に理解するのに使いやすいことです。

統計アナリストとしての私の実際の実務からの実用的な応用例を提供できます。大規模なデータセットを使用して、監視されていない荒野で自分自身を見つけた場合、上司から分析を実行するように求められたら、どこから始めますか?データセットに慣れておらず、さまざまな機能が相互にどのように関係していると思われるのかよくわからない場合は、提案したような複雑なモデルを調査するのはまずいでしょう。

代わりに、開始するのに最適な場所は、単純な古い線形回帰です。回帰分析を実行し、係数を見て、残差をグラフ化します。データで何が起こっているかを確認し始めたら、どの高度な方法を適用しようとしているかについていくつかの決定を下すことができます。

sklearn.svmのような高度なモデルのブラックボックスにデータをプラグインした場合(Pythonを使用している場合)、結果が有意義であるという確信が非常に低いと断言します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.