GLMは統計モデルまたは機械学習モデルですか?


11

一般化線形モデル(GLM)は統計モデルと見なされると思いましたが、友人から、それを機械学習手法として分類している論文があると言われました。どちらが本当ですか(またはより正確)?説明をいただければ幸いです。


1
機械学習は通常、統計モデリングのアプリケーションだと思うので、両方とも言えるでしょう。
ジョーズ14年

回答:


21

GLMは完全に統計モデルですが、統計モデルと機械学習技術は相互に排他的ではありません。一般に、統計はパラメータの推定により関心がありますが、機械学習では予測が最終的な目標です。


15

予測に関しては、統計学と機械学習科学は、異なる視点からほとんど同じ問題を解決し始めました。

基本的に統計は、データが特定の確率モデルによって生成されたと想定しています。したがって、統計的な観点から、モデルが仮定され、さまざまな仮定が与えられて、エラーが処理され、モデルパラメータと他の質問が推測されます。

機械学習は、コンピューターサイエンスの観点から来ています。モデルはアルゴリズムに基づいており、通常、データに関して必要な仮定はほとんどありません。仮説空間と学習バイアスを使用します。私が見つけた機械学習の最良の博覧会が呼び出さトム・ミッチェルの本に含まれている機械学習

2つの文化に関するより包括的で完全なアイデアについては、統計的モデリングと呼ばれるLeo Breimanのペーパーを読むことができます:2つの文化

ただし、追加する必要があるのは、2つの科学が異なる視点から始まったとしても、現在、両方の科学がかなりの量の共通の知識と技術を共有していることです。なぜなら、問題は同じでしたが、ツールが異なっていたからです。そのため、現在、機械学習は主に統計的な観点から扱われています(Hastie、Tibshirani、Friedmanの書籍「The Elements of Statistical Learning from the machine learning point of a statistics処遇」と、おそらくKevin P. Murphyの本「Machine Learning:A」を確認してください)確率論的視点、今日入手可能な最良の本のほんの一部を挙げます)。

この分野の発展の歴史でさえ、この視点の融合の利点を示しています。2つのイベントについて説明します。

1つ目は、統計的背景がしっかりしているBreimanによって作成されたCARTツリーの作成です。ほぼ同時に、QuinlanはID3、C45、See5などの、より多くのコンピュータサイエンスのバックグラウンドを備えたディシジョンツリースイートを開発しました。これで、この系統樹と、袋詰めや森林などの集団手法は非常に似たものになります。

第二話はブースティングについてです。当初は、AdaBoostを発見したとき、フロイントとシャピアによって開発されました。AdaBoostを設計するための選択は、主に計算の観点から行われました。著者でさえ、なぜそれが機能するのかよく理解していませんでした。わずか5年後、ブレイマン(再び!)はアダブーストモデルを統計的な観点から説明し、それが機能する理由を説明しました。それ以来、両方のタイプのバックグラウンドを持つさまざまな著名な科学者が、ロジスティックブースティング、グラディエントブースティング、穏やかなブースティングなどのブースティングアルゴリズムのプレアッドにつながるアイデアをさらに発展させました。確かな統計的背景なしにブースティングを考えるのは今では難しいです。

一般化線形モデルは統計的な発展です。ただし、新しいベイジアン処理では、このアルゴリズムを機械学習の遊び場にも取り入れています。ですから、それがどのように機能するかについての解釈と扱いが異なる可能性があるため、両方の主張が正しいと思う。


5

ベンの答えに加えて、統計モデルと機械学習モデルの微妙な違いは、統計モデルでは、モデルを構築する前に出力方程式の構造を明示的に決定することです。モデルは、パラメータ/係数を計算するために構築されています。

線形モデルまたはGLMを例にとります。

y = a1x1 + a2x2 + a3x3

独立変数はx1、x2、x3で、決定される係数はa1、a2、a3です。モデルを構築する前にこの方法で方程式の構造を定義し、a1、a2、a3を計算します。yが何らかの方法でx2と非線形に相関していると思われる場合は、次のような方法を試してみてください。

y = a1x1 + a2(x2)^2 + a3x3.

したがって、出力構造に関して制限を課します。シグモイドやカーネルなどの変換を明示的に適用して非線形にする(GLMおよびSVM)場合を除き、本質的に統計モデルは線形モデルです。

機械学習モデルの場合、出力構造を指定することはめったになく、決定木のようなアルゴリズムは本質的に非線形であり、効率的に機能します。

ベンが指摘したのとは逆に、機械学習モデルは予測だけではなく、さまざまな統計モデルによっても行われる予測を行うために使用できる分類、回帰などを行います。


アーキテクチャは事前に決定されているため、そのロジックニューラルネットワークの使用は統計モデルです。統計と機械学習の間の明確な境界を定義する試みは可能でも必要でもないと思います。
Marc Claesen、

これが、機械学習の段落で「まれに」という言葉を述べた理由です。私はあなたが絶対にしないとは言っていません!さて、これらのことを探求し始める人々にとって、統計学習と機械学習の間のニュアンスを知るのは良いことです
binga

この説明が気に入りました。統計の世界では、データの正規化、特徴エンジニアリング、モデルフィッティングに大きな重点が置かれていることがわかりました。MLの世界では依然として重要ですが、人々は「適切なモデルを見つける」ために正則化と大量のデータを使用しているため、事前の仮定が少なくて済みます。注:それは両方でマスターをしたことからの私の感覚ですが、私が間違っていると思われる場合は他の人が私を修正することを歓迎します。
user1761806

2

GLMは完全に統計モデルですが、工業生産では機械学習の手法としてますます多くの統計手法が適用されています。最近私が最もよく読んだメタ分析は、統計分野の良い例です。

GLMを使用した完璧な産業用アプリケーションは、GLMが機械学習手法と見なされたと友達に言われた理由を説明できます。ソースペーパーhttp://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdfを参照してください

数週間前の本番シナリオで、私の推奨システムのメインフレームワークとして扱われた簡略化されたものを実装しました。あなたが私にいくつかのヒントを与え、そしてあなたがソースコードをチェックすることができれば非常に感謝します:https//github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala

これがあなたに役立つことを願っています、良い一日!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.