回答:
予測に関しては、統計学と機械学習科学は、異なる視点からほとんど同じ問題を解決し始めました。
基本的に統計は、データが特定の確率モデルによって生成されたと想定しています。したがって、統計的な観点から、モデルが仮定され、さまざまな仮定が与えられて、エラーが処理され、モデルパラメータと他の質問が推測されます。
機械学習は、コンピューターサイエンスの観点から来ています。モデルはアルゴリズムに基づいており、通常、データに関して必要な仮定はほとんどありません。仮説空間と学習バイアスを使用します。私が見つけた機械学習の最良の博覧会が呼び出さトム・ミッチェルの本に含まれている機械学習。
2つの文化に関するより包括的で完全なアイデアについては、統計的モデリングと呼ばれるLeo Breimanのペーパーを読むことができます:2つの文化
ただし、追加する必要があるのは、2つの科学が異なる視点から始まったとしても、現在、両方の科学がかなりの量の共通の知識と技術を共有していることです。なぜなら、問題は同じでしたが、ツールが異なっていたからです。そのため、現在、機械学習は主に統計的な観点から扱われています(Hastie、Tibshirani、Friedmanの書籍「The Elements of Statistical Learning from the machine learning point of a statistics処遇」と、おそらくKevin P. Murphyの本「Machine Learning:A」を確認してください)確率論的視点、今日入手可能な最良の本のほんの一部を挙げます)。
この分野の発展の歴史でさえ、この視点の融合の利点を示しています。2つのイベントについて説明します。
1つ目は、統計的背景がしっかりしているBreimanによって作成されたCARTツリーの作成です。ほぼ同時に、QuinlanはID3、C45、See5などの、より多くのコンピュータサイエンスのバックグラウンドを備えたディシジョンツリースイートを開発しました。これで、この系統樹と、袋詰めや森林などの集団手法は非常に似たものになります。
第二話はブースティングについてです。当初は、AdaBoostを発見したとき、フロイントとシャピアによって開発されました。AdaBoostを設計するための選択は、主に計算の観点から行われました。著者でさえ、なぜそれが機能するのかよく理解していませんでした。わずか5年後、ブレイマン(再び!)はアダブーストモデルを統計的な観点から説明し、それが機能する理由を説明しました。それ以来、両方のタイプのバックグラウンドを持つさまざまな著名な科学者が、ロジスティックブースティング、グラディエントブースティング、穏やかなブースティングなどのブースティングアルゴリズムのプレアッドにつながるアイデアをさらに発展させました。確かな統計的背景なしにブースティングを考えるのは今では難しいです。
一般化線形モデルは統計的な発展です。ただし、新しいベイジアン処理では、このアルゴリズムを機械学習の遊び場にも取り入れています。ですから、それがどのように機能するかについての解釈と扱いが異なる可能性があるため、両方の主張が正しいと思う。
ベンの答えに加えて、統計モデルと機械学習モデルの微妙な違いは、統計モデルでは、モデルを構築する前に出力方程式の構造を明示的に決定することです。モデルは、パラメータ/係数を計算するために構築されています。
線形モデルまたはGLMを例にとります。
y = a1x1 + a2x2 + a3x3
独立変数はx1、x2、x3で、決定される係数はa1、a2、a3です。モデルを構築する前にこの方法で方程式の構造を定義し、a1、a2、a3を計算します。yが何らかの方法でx2と非線形に相関していると思われる場合は、次のような方法を試してみてください。
y = a1x1 + a2(x2)^2 + a3x3.
したがって、出力構造に関して制限を課します。シグモイドやカーネルなどの変換を明示的に適用して非線形にする(GLMおよびSVM)場合を除き、本質的に統計モデルは線形モデルです。
機械学習モデルの場合、出力構造を指定することはめったになく、決定木のようなアルゴリズムは本質的に非線形であり、効率的に機能します。
ベンが指摘したのとは逆に、機械学習モデルは予測だけではなく、さまざまな統計モデルによっても行われる予測を行うために使用できる分類、回帰などを行います。
GLMは完全に統計モデルですが、工業生産では機械学習の手法としてますます多くの統計手法が適用されています。最近私が最もよく読んだメタ分析は、統計分野の良い例です。
GLMを使用した完璧な産業用アプリケーションは、GLMが機械学習手法と見なされたと友達に言われた理由を説明できます。ソースペーパーhttp://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdfを参照してください。
数週間前の本番シナリオで、私の推奨システムのメインフレームワークとして扱われた簡略化されたものを実装しました。あなたが私にいくつかのヒントを与え、そしてあなたがソースコードをチェックすることができれば非常に感謝します:https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala
これがあなたに役立つことを願っています、良い一日!