機械学習における線形回帰と統計モデルの違い


7

機械学習と統計モデルの主な違いは、後で特定のタイプのデータ分布を「想定」し、その異なるモデルパラダイムと取得した統計結果(p値、F統計など)に基づいていることを理解しました。 、t-statなど)。ただし、機械学習の場合は、データの分布を気にせず、予測に関心があります。

Mllibのドキュメントを調べていたところ、線形回帰では分布を指定していることがわかりました。しかし、MLLIBは機械学習パッケージです。それで、私は次の質問をします:

1)MLと統計的手法の理解が間違っていますか?

2)Sparkは線形回帰とGLMに統計モデリングを使用していますか?

ありがとう!

注:機械学習と統計的手法の違いに関するすばらしい記事がたくさんあります。しかし、これはSpark MLLIBに関連しています。

回答:


5
  1. 残念ながら、あなたが説明する二分法は無効です。MLモデル(ほとんどの場合)は、応答分布を定義します。たとえば、非常に人気のある勾配ブースティングマシンライブラリXGBoostは、特定の学習目標(線形、ロジスティック、ポアソン、コックスなど)を定義します。
  2. 線形回帰とGLMSの実施スパークのMLlibがされて間違いなく線形モデルのための標準的な統計理論に基づきます。たとえば、pyspark/mllib/regression.pyLinearRegressionWithSGDコメントから直接引用します。Train a linear regression model using Stochastic Gradient Descent (SGD). This solves the least squares regression formulation f(weights) = 1/(2n) ||A weights - y||^2 which is the mean squared error.つまり、これはガウス応答の標準線形回帰アルゴリズムです。特定のアルゴリズムの実装は、非常に大きなデータセットに対して機能するように最適化されている可能性があります(たとえば、「閉形式の数学ソリューションが利用可能な場合、線形回帰に勾配降下法を使用する理由」のこの優れたスレッドを参照してください)アルゴリズムはまったく同じです。

私はuser11852に同意します。それに応じて損失/コスト関数を選択するため、MLアプローチでは応答分布も必要であることを付け加えておきます。
-fabiob

ちょっと興味があるんだけど。MLメソッドも分布に従う場合、なぜそれらはp値、t統計などを提供しないのですか?ML実践者がモデルの詳細な統計的有意性よりも予測に関心があるという事実は別として。ありがとう!
ベータ版

@ベータ:質問のほとんどに答えました。開業医は通常予測に集中しており、治療/介入のような特別な変数の影響を分離する必要はありません。また、ほとんどの場合、サンプルサイズは膨大であると見なされているため、(おそらく誤った方向で)すべてが(一部の)本当の意味を持つと予想されます。
usεr11852
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.