機械学習と統計モデルの主な違いは、後で特定のタイプのデータ分布を「想定」し、その異なるモデルパラダイムと取得した統計結果(p値、F統計など)に基づいていることを理解しました。 、t-statなど)。ただし、機械学習の場合は、データの分布を気にせず、予測に関心があります。
Mllibのドキュメントを調べていたところ、線形回帰では分布を指定していることがわかりました。しかし、MLLIBは機械学習パッケージです。それで、私は次の質問をします:
1)MLと統計的手法の理解が間違っていますか?
2)Sparkは線形回帰とGLMに統計モデリングを使用していますか?
ありがとう!
注:機械学習と統計的手法の違いに関するすばらしい記事がたくさんあります。しかし、これはSpark MLLIBに関連しています。