二つの文化:統計と機械学習?


420

昨年、私は「統計対機械学習、戦い!」というタイトルのブレンダン・オコナーのブログ記事を読みました2つのフィールドの違いの一部について説明しました。 アンドリュー・ゲルマンはこれに好意的に反応しました

サイモン・ブロンバーグ:

Rの福袋から:挑発的に言い換えると、「機械学習は統計からモデルと仮定のチェックを差し引いたものです」。-ブライアンD.リプリー(機械学習と統計の違いについて)useR!2004年、ウィーン(2004年5月):-)季節のご挨拶!

アンドリュー・ゲルマン:

その場合、モデルと仮定のチェックをより頻繁に取り除く必要があります。そうすれば、機械学習の人々が解決できる問題のいくつかを解決できるかもしれませんが、できません!

ありました:「二つの文化の統計モデリング」統計学者は、データモデリングに過度に依存し、その機械学習技術が代わりに頼ることで進展していると主張し、2001年にレオ・ブレイマンによって予測精度のモデルは。

これらの批判に応えて、統計分野は過去10年間で変化しましたか?か二つの文化がまだ存在や統計は、ニューラルネットワークやサポートベクターマシンなどの機械学習技術を包含するように成長していますか?


21
ありがとう@robin; CWを作りました。私はこれを完全に「議論的」とは見ていません。互いに情報を提供している2つのフィールドがあり(これは事実です)、問題は過去10年間でどれだけ一緒に進化してきたかです。
シェーン

16
3番目のカルチャ、データマイニングを追加します。機械学習者とデータマイナーは、まったく異なる言語を話します。通常、機械学習者はデータマイニングの違いを理解していません。彼らにとって、それは単に教師なしの学習です。データ管理の側面を無視し、流行語データマイニングを機械学習にも適用し、混乱をさらに増やします。
アノニムース

4
上の同様の質問がありますデータマイニングや統計
naught101

2
Wassermanのブログでの興味深い議論。

2
実際には、MLと統計の間のリンクは十分に強調されていないようです。多くのCS学生は、MLタスクを実行する際の基礎となる健全な統計の重要性を理解していないため、基本的な日々の間に統計に関する学習を無視しています。世界中の多くのCS部門でさえ、同様に行動するのが遅いでしょう。それは非常にコストのかかる間違いであることが証明され、CSでの統計知識の重要性についての認識が高まることは確かです。基本的にML =さまざまな意味での統計。
-xji

回答:


195

最初の質問に対する答えは単に肯定的なものだと思います。統計科学、JASA、過去10年間の統計の問題を取り上げると、ブースティング、SVM、およびニューラルネットワークに関する論文が見つかりますが、現在この分野はあまり活発ではありません。統計学者はValiantとVapnikの仕事を充当しましたが、一方で、コンピューター科学者はDonohoとTalagrandの仕事を吸収しました。スコープとメソッドにこれ以上大きな違いはないと思います。CSの人々は、どんな作品でも損失を最小限に抑えることにのみ興味があるというブライマンの議論を買ったことはありません。その見解は、ニューラルネットワーク会議への参加とコンサルティング業務に大きく影響されました。しかし、PAC、SVM、Boostingはすべて強固な基盤を持っています。そして今日、2001年とは異なり、統計は有限サンプル特性に関心があり、

しかし、私はまだ3つの重要な違いがあると思いますが、すぐには消えません。

  1. 方法論統計の論文は、依然として圧倒的に形式的で演、的ですが、機械学習の研究者は、証拠が添付されていなくても新しいアプローチに寛容です。
  2. 統計学者はジャーナル論文を使用しますが、MLコミュニティは主に会議や関連する会議で新しい結果と出版物を共有します。これにより、統計およびスター研究者の特定の進行が遅くなります。ジョン・ラングフォードは、しばらく前からこのテーマについて素晴らしい記事を書いています。
  3. 統計は、調査の設計、サンプリング、産業統計など、まだMLにほとんど関心のない分野をカバーしています。

20
素晴らしい投稿!Vapnickには統計学の博士号があることに注意してください。Talagrandという名前を知っているコンピューター科学者がたくさんいるのかどうかはわかりませんが、それらの0.01%がメモリによってtalagrandの1つの結果を述べることができると確信しています:) ヴァリアントの仕事を知らない:)
ロビンジラール

学術研究と応用に関しては、さまざまな答えがあります。前者の文脈で答えたと思います。アプリケーションでは、最大の違いはフィールドの拡大方法にあると思います。データサイエンスチャネルを介したMLは、文字通りコーディングできるすべての人を受け入れます。統計では、労働力を入力するために、統計または近距離での正式な学位が必要です。
アクサカル

1
調査サンプリングと産業統計はいずれも数十億ドル規模の分野です(アメリカ統計協会の調査研究方法のセクションは、生体認証とコンサルティングに次いで3番目に大きく、後者には多数の産業統計家も含まれています。品質に関する別のセクションがあります。 、さらに別のシックスシグマのものと他の品質管理方法がありますが、それらすべてが完全に統計ではありません)。1960年代にこれらの地域で働くようになった団塊世代の現在の労働力は引退しているため、どちらも統計学者の重大な不足を抱えています。
StasK

4
会議でレッドカーペットでポーズをとって仕事を得る人もいれば、現実の世界で手法を適用して自分の仕事を見つける人もいます。後者の人々は、あらゆる種類の星を特定することにそれほど関心を持っいません。多くの場合、特定の分野で数年後、あなたは何度も何度も同じ名前に導かれますが、彼らはかなりうまくいく方法を特定します。
StasK

サンプリングがMLにとって重要ではないのはなぜですか?それは、MLで正しいラベルのトレーニングデータを持っているという問題とはまったく似ていないのですか?
ゲリット

169

コミュニティ間で私が見る最大の違いは、統計が推論を強調するのに対して、機械学習は予測を強調することです。統計を行うとき、データが生成されたプロセスを推測する必要があります。 機械学習を行う場合、変数によって将来のデータがどのように見えるか予測する方法を知りたいと思います。

もちろん、2つは重複しています。データがどのように生成されたかを知ることは、たとえば、良い予測子が何であるかについてのヒントを提供します。ただし、違いの1つの例は、機械学習が初期の頃からp >> n問題(トレーニングサンプルよりも多くの機能/変数)を扱っているのに対し、統計はこの問題について深刻になり始めていることです。どうして?なぜなら、p >> nのときでも良い予測をすることができますが、実際に重要な変数とその理由について非常に良い推測をすることはできません。


13
これは、生成モデルと識別モデルの違いのようなものとして(過度に)単純化できますか?
ウェイン

5
「[分類]問題を直接解決し、中間ステップとしてより一般的な問題を解決しないでください...」-Vapnik-
ウェイン

3
@mbq:私は推論ができないことを意味するつもりはありませんでしたが、それは主な目標ではなく、通常MLでp >> nであり、それをはるかに難しくしています。
dsimcha

2
私はこの見解に強く反対します。間違っているようです。リカレントニューラルネットワークのようなものもプロセスを推測しようとし、さらに新しいシーケンスを生成し続けます。
穴居人

2
では、ロボット工学はどうですか?確率的ロボティクスは主に推論に焦点を当てており、アプリケーションではかなり支配的です。しかし、それでも統計とは異なる「フレーバー」(および機械/学習と比較してより多くのエンジニアリング、つまりリアルタイム分析/制御)
-GeoMatt22

134

ベイジアン:「こんにちは、機械学習者!」

フリークエンティスト:「こんにちは、機械学習者!」

機械学習:「皆さんは物事が得意だと聞きました。ここにいくつかのデータがあります。」

F:「はい、モデルを書き留めてからMLEを計算しましょう。」

B:!。「ねえ、F、それはあなたが昨日私に言ったことはありません、私はいくつかの単変量のデータを持っていたと私は分散を推定したかった、と私はMLEを計算し、あなたが私に急襲とする私に言ったことで割るの代わりに、によってnn1n。」

F:「ああ、そうです、思い出させてくれてありがとう。私はよくすべてにMLEを使うことになっていると思いますが、偏りのない推定器などに興味があります。」

ML:「ええ、この哲学は何ですか?それは私を助けますか?」

F:「OK、エスティメータはブラックボックスです。データを入力すると、いくつかの数値が出力されます。私たちは、ボックスがどのように構築されたか、どの原則が設計に使用されたかについては気にしません。ルールの導出方法がわかりません。」÷(n1)

ML:「それで、あなたは何に関心がありますか?」

F:「評価」。

ML:「その音が好きです。」

F:「ブラックボックスはブラックボックスである誰かが特定の推定量がため不偏推定量であると主張した場合。、そして私たちは、多くの値を試すそれらを押し出します、いくつかの仮定のモデルに基づいて、それぞれから多くのサンプルを生成し、順番にします推定、および平均見つける推定。私たちは、予想される推定値はすべての値のために、真の値と等しいことを証明することができるなら、我々はそれが公平だと言います。」θ θθθθ

ML:「素晴らしいですね!頻繁に使用する人は実用的な人のようですね。あなたはそれぞれのブラックボックスをその結果で判断します。評価が重要です。」

F:「確かに、皆さんも同様のアプローチを取っていることを理解しています。相互検証、または何か?しかし、それは私にとって厄介に聞こえます。」

ML:「乱雑?」

F:「実際のデータで推定量をテストするという考えは私にとって危険です。使用する経験的なデータにはさまざまな問題があり、評価のために合意したモデルに従って動作しない可能性があります。」

ML:「なに?いくつかの結果を証明したと言ったと思いますか?あなたの推定量はすべてのに対して常に偏りがないということです。」θ

F:「はい。評価で使用した1つのデータセット(トレインデータとテストデータを含むデータセット)でメソッドが機能したかもしれませんが、私の方法が常に機能することを証明できます。」

ML:「すべてのデータセットについて?」

F:「いいえ」

ML:「それで、私のメソッドは1つのデータセットで相互検証されました。実際のデータセットでテストしていませんか?」

F:「そうです。」

ML:「それで私はリードになります。私の方法はあなたよりも優れています。90%の確率で癌を予測します。あなたの「証明」は、データセット全体が想定したモデルに従って動作する場合にのみ有効です」

F:「ええ、ええ、そうですね」

ML:「そして、その間隔は95%のカバレッジを持っています。しかし、20%の時間の正しい値しか含まれていなくても驚かないでしょうか?」θ

F:「そうです。データが本当にiid Normal(または何でも)でない限り、私の証明は無意味です。」

ML:「私の評価はより信頼性が高く包括的なものですか。これまで試したデータセットでのみ機能しますが、少なくとも実際のデータセット、いぼなどです。あなたはもっと保守的だと主張しようとしました。 「徹底的」であり、モデルのチェックなどに興味がありました

B:(あいさつ)「やあ、中断してごめんなさい。他のいくつかの問題を示して、物事に介入してバランスを取りたいのですが、頻繁に同僚のぞくぞくするのを見るのが大好きです。」

F:「うわー!」

ML:「わかりました。評価がすべてでした。評価者はブラックボックスです。データが入り、データが出ます。評価中の評価方法に基づいて評価者を承認または不承認にします。使用されている「レシピ」または「設計原則」について。」

F:「はい。しかし、どの評価が重要であるかについては非常に異なる考えがあります。MLは実際のデータのトレーニングとテストを行います。一方、より一般的な評価を行います(広く適用可能な証明を含むため)また、より制限されています(評価を設計するときに使用するモデリングの仮定からデータセットが実際に引き出されているかどうかはわかりません)。」

ML:「どの評価を使用しますか、B?」

F:(あいさつ)「ねえ。笑わせないで。何も評価しない。彼は自分の主観的な信念を使って走り回る。または何か。」

B:「これは一般的な解釈です。しかし、好ましい評価によってベイジアン主義を定義することも可能です。それから、私たちはブラックボックスの内容を気にせず、異なる評価方法にのみ気を配るという考えを使用できます。」

Bの続き:「古典的な例:医学的検査。血液検査の結果は陽性または陰性のいずれかです。頻繁な専門家は、健康な人のどの割合が陰性の結果を得るかに興味があります。頻繁に使用することで、検討中の各血液検査法についてこれらを計算し、最高のスコアを獲得した検査を使用することを推奨します。」

F:「その通りです。他に何が欲しいですか?」

B:「陽性の検査結果が得られた人はどうですか?彼らは「陽性の結果が得られた人のうち、何人が病気になりますか?」そして「負の結果を得るもののうち、健康なものは何人ですか?」」

ML:「はい、それは質問するのにより良いペアのようです。」

F:「HERESY!」

B:「ここにまた行きます。彼はこれがどこに行くのが好きではありません。」

ML:「これは「先祖」についてですよね?」

F:「悪」。

B:「とにかく、あなたは正しいMLです。病気であるポジティブな結果の人々の割合を計算するには、2つのことのいずれかを行う必要があります。1つのオプションは、多くの人々でテストを実行し、例えば、これらの人々のうち何人が病気で亡くなっていますか。」

ML:「それは私がやっているように聞こえます。訓練とテストを使用してください。」

B:「しかし、あなたが人口の病気の割合について仮定することをいとわないならば、これらの数を前もって計算することができます。頻繁な専門家は事前に計算を行います。

F:「さらに根拠のない仮定」

B:「ああ、黙れ。先にあなたが発見された。MLは、あなたが誰とでも同じように根拠のない仮定を好むことを発見した。なぜ私の以前の仮定がそんなに違うのですか?あなたは私をクレイジーと呼びますが、あなたの仮定は保守的で堅実な仮定のない分析の仕事であるふりをします。」

B(続く):。。。「とにかく、ML、私が言っていたようBayesians評価の異なる種類のように私たちは、観測データのコンディショニングに興味があり、それに応じて私たちの推定の精度を計算我々は、この実行することはできません評価を使用せずしかし、興味深いのは、この評価形式を決定し、事前評価を選択すると、適切な推定量を作成するための自動「レシピ」が得られることです。複雑なモデルの偏りのない推定器であるため、適切な推定器を作成する自動化された方法はありません。」

ML:「あなたもそうですか。推定器を自動的に構築できますか?」

B:「はい。バイアスは推定量を評価するのに悪い方法だと思うので、偏りのない推定量を自動的に作成する方法はありません。事前と尤度を接続して、推定量を与えることができます。」

ML:「とにかく、要約しましょう。私たちは皆、メソッドを評価するためのさまざまな方法を持っています。どのメソッドが最適かについては決して同意しないでしょう。」

B:「まあ、それは公平ではありません。それらを混ぜて一致させることができます。ラベル付きトレーニングデータがあれば、テストする必要があります。一般的に、できるだけ多くの仮定をテストします。 「データ生成の推定モデルの下でパフォーマンスを予測し、証明も楽しいかもしれません。」

F:「ええ。評価について実際に考えましょう。実際、無限サンプルのプロパティに夢中になるのをやめます。科学者に無限のサンプルを提供するように頼んでいますが、まだやっていません。有限のサンプルに再び集中する時間です。」

ML:「それで、最後の質問が1つだけあります。メソッドを評価する方法について多くの議論をしましたが、どのようにメソッドを作成するのでしょうか。」

B:「ああ。以前に取得したように、ベイジアンはより強力な一般的な方法を持っています。複雑かもしれませんが、後部からサンプリングする何らかの種類のアルゴリズム(MCMCの単純な形式)をいつでも作成できます。 」

F(interjects):「しかし、バイアスがあるかもしれません。」

B:「あなたの方法かもしれません。MLEにはしばしば偏りがあることを思い出してください。時々、偏りのない推定量を見つけるのが非常に難しい場合があります。分散は負です。そして、あなたはそれを偏りのないものと呼びます。

ML:「OK、皆さん。再び不平を言っています。Fに質問させてください。同じ問題に取り組んだときに、メソッドのバイアスをBのメソッドのバイアスと比較したことがありますか?」

F:「はい。実際、私はそれを認めたくありませんが、Bのアプローチは時々私の推定者よりも低いバイアスとMSEを持っています!」

ML:「ここでの教訓は、評価については少し意見が異なりますが、希望する特性を持つ推定器を作成する方法を独占している人はいないということです。」

B:「はい、お互いの仕事をもう少し読む必要があります。お互いに刺激者にインスピレーションを与えることができます。他の見積もり者は、私たち自身の問題に対して、すぐに使えることがわかります。」

F:「そして、偏見に執着するのをやめるべきです。偏りのない評価者はばかげた分散を持っているかもしれません。私たちは哲学の後ろに隠れることはできません。できる限りの評価を試してみてください。そして、私はベイジアン文学をこっそり見て、推定者のための新しいアイデアを得ます!」

B:「実際、多くの人は自分の哲学が何であるかを本当に知りません。自分自身も確信が持てません。ベイジアンのレシピを使って、素敵な理論的結果を証明しても、それは私を意味しません。常習者ですか?常習者はパフォーマンスに関する上記の証明を気にしますが、レシピは気にしません。代わりに(または同様に)トレーニングとテストを行うと、それは機械学習者という意味ですか? 」

ML:「私たちは皆かなり似ているようです。」


8
この応答を最後まで読む読者のために、簡単なテイクアウェイメッセージを追加することをお勧めします(該当する場合は適切な引用を提供します)。
chl

これまでのところ-2票で、私はそれを保存するために私ができることはあまりないと思います:)私は彼らがすべて互いに同意し、お互いの哲学を心配することなくお互いの方法を使用できることを認める結末はだと思います「持ち帰り用メッセージ」。
アーロンマクデイド

10
引用は不要です。私は自分で作りました。それはおそらく十分に知られていない、それは私が長年にわたって少数の同僚と持っていた議論の私自身の(間違った)解釈に基づいている。
アーロンマクデイド

3
私は過去にそのような対話(しかし、より短い)を見てきましたが、それらは面白いと思います。私はまた、下票に懸念を抱いていました。したがって、読者にあなたの投稿の残りを読むように動機付けするために、簡単な要約を一番上に置くことを提案します。
chl

3
13/10はまた論争するだろう
410_

67

そのような議論では、私は常に有名なケン・トンプソンの引用を思い出します

疑わしい場合は、ブルートフォースを使用します。

この場合、機械学習は、仮定が理解しにくい場合の救いです。または、少なくともそれらを間違って推測するよりもはるかに優れています。


2
近年、計算能力が向上し、オートエンコーダと関連する技術により、これはかつてないほど真実になっています。
Firebug

問題を解決するために、エンジニアは以前に使用した式、技術、手順を使用し、それらの成功を確信しています...通常、それはブルートフォースの使用またはThumbルールの使用と呼ばれます...手順は段階的なプロセスで使用されます...エンジニアリング活動はグループ活動です-エンジニア、技術者、および手動労働者が一緒に仕事をします。新しい手順が導入されると、この手順を使用して技術者と労働者を訓練するのに時間がかかります。そのため、進化プロセスに近代化が導入されます。
b.sahu

64

必要以上に分離を強制するのは、各分野の用語集です。

MLが1つの用語を使用し、Statisticsが異なる用語を使用する多くのインスタンスがありますが、両方とも同じものを参照しますが、それは予想通りであり、永続的な混乱を引き起こしません(たとえば、機能/属性対期待)変数、またはニューラルネットワーク/ MLP対射影追跡)。

さらに厄介なのは、両方の分野でまったく同じ概念を使用して、まったく異なる概念を指すことです。

いくつかの例:

カーネル関数

MLでは、カーネル関数は分類子(SVMなど)で使用され、もちろんカーネルマシンでも使用されます。この用語は、非線形に分離可能な新しい入力空間にマッピングするための単純な関数(コサイン、シグモイド、rbf、多項式)を指し、データがこの新しい入力空間で線形に分離できるようになりました。(最初に非線形モデルを使用した場合とは異なります)。

統計では、カーネル関数は密度推定で密度曲線を滑らかにするために使用される重み関数です。

回帰

MLでは、予測アルゴリズム、またはクラスラベル "分類子"を返すアルゴリズムの実装は、(サポートベクターマシンカーネルマシンなどマシンと呼ばれることもあります。マシンに対応するのはリグレッサで、スコア(連続変数)を返します(サポートベクトル回帰など)

アルゴリズムがモードに基づいて異なる名前を持つことはほとんどありません。たとえば、MLPは、クラスラベルまたは連続変数を返すかどうかに使用される用語です。

統計では、回帰、経験的データに基づいてモデルを構築しようとしている場合、1つ以上の説明変数または複数の変数に基づいて応答変数を予測します。その後、回帰分析を行います。出力が連続変数またはクラスラベル(たとえば、ロジスティック回帰)であるかどうかは関係ありません。そのため、たとえば、最小二乗回帰は連続値を返すモデルを指します。一方、ロジスティック回帰は、クラスラベルに離散化される確率推定を返します。

バイアス

MLでは、アルゴリズムのバイアス項は、回帰モデリングで統計学者が使用する切片項と概念的に同じです。

統計では、バイアスは非ランダムエラーです。つまり、何らかの現象が同じ方向のデータセット全体に影響を与えました。つまり、この種のエラーは、サンプルサイズをリサンプリングまたは増加しても除去できません。


19
統計では、バイアスはエラーと同じではありません。エラーは純粋にランダムですが、バイアスはそうではありません。推定値の期待値が真の値と等しくないことがわかっている場合、バイアスが生じます。
ジョリスメイズ

2
(@Jorisまたはそれを知らなくても!些細に聞こえますが、偏りがあるかどうかを把握するだけでかなり実用的な問題になる可能性があります。バイアス?)バイアスは推定量の特性ではなく、データの特徴であるという一般的な誤解です。「その調査は偏っている!」のような非技術的な使用に起因するのだろうか。統計学者はまた、「誤差」のような用語について常に一貫しているわけではありません。(推定器の)平均二乗誤差にはバイアス二乗成分が含まれているため、「誤差」は「純粋にランダム」ではありません。
シルバーフィッシュ

2
SVMの「マシン」という用語は、Vladimir Vapnicの個人的な好みに起因すると考えられます。最近では、他の分類器に名前を付けるために使用されることはないと思います。
iliasfl 14年

3
これらの多くは、MLコミュニティで見た使用法と一致していません。両方のタイプのカーネルが広く使用されています(ヒルベルトスペースカーネルがより一般的ですが)、「machine」は基本的にSVMにのみ(iliasflのメモとして)使用され、「bias」は通常(おそらく何かに条件付けられている)。これはインターセプトと同じものではありません。E[X^X]
ドゥーガル

1
「ロジスティック回帰は、一方でクラスラベルを返します」というステートメント。間違っている。ロジスティック回帰戻りの値継続のように符号化されたクラスに属する確率の推定値である。1[0,1]1
random_guy

25

機械学習は、実際の観察または現実のシミュレーションに基づいています。統計内であっても、「モデルと仮定の無意識のチェック」は、有用なメソッドの破棄につながる可能性があります。

たとえば、数年前、信用調査機関によって実装された非常に最初の商業的に利用可能な(そして機能する)破産モデルは、0-1の結果を対象とする単純な古い線形回帰モデルによって作成されました。技術的には、これは悪いアプローチですが、実際には機能しました。


4
それは都市の交通に惑星重力モデルを使用することに似ています。それはばかげていると思いますが、実際には正確に静かに動作します
-dassouki

5
私は最後の声明に興味があります:「信用調査機関によって実装された最初の商業的(そして実用的な)破産モデルは、0-1の結果を対象とする単純な古い線形回帰モデルによって作成されました」。どのモデルでしたか?最初のモデルはムーディーズによるRiskCalcであり、最初のバージョンでさえロジスティック回帰モデルであったと思います。そのモデルの開発者は、MLのバックグラウンドを持つCSの人ではなく、計量経済学の人でした。
ギャップのある

2
DAはLRのかなり前に発明されたため、ロジスティック回帰の前に判別分析を使用したに違いない
ニールマクギガン

1
@gappy私は、個々の信用調査会社レコードのMDS消費者破産モデルを考えています。RiskCalcは、企業の信用リスク評価でした。MDS破産モデルは、FICOの元のスコアなど、クレジットの延滞ではなく破産であったという点で、FICOのリスクモデルとは異なりました。私のコメントは、そのコンテキストでのMLの詳細についてはあまりありませんでした(BKモデルが最初に構築された時点ではほとんど使用されていなかったため)、実際の有効性は必ずしも関連していないという事実理論上の制限または仮定違反。
ジェイスティーブンス

なぜそれが技術的に悪いアプローチだったのか不思議に思っています。現実とは大きく異なる単純化された仮定が多すぎたからですか?
xji

25

過去1年間に気付いた最大の違いは次のとおりです。

  • 機械学習の専門家は基礎に十分な時間を費やしておらず、彼らの多くは最適な意思決定と正確なスコアリングルールを理解していません。彼らは、仮定を行わない予測手法が行う方法よりも大きなサンプルサイズを必要とすることを理解していません。
  • 統計学者は、優れたプログラミングの実践と新しい計算言語の学習に費やす時間が少なすぎます。統計文献からの新しい方法の計算と採用に関しては、変更するには遅すぎます。

2
別の注意点は、統計学者は、特に出版物に関しては、(おそらくばかげた仮定のセットの下で)うまくいく数学で証明できる方法に自分自身を制限する傾向があるということです。機械学習の人々は、いくつかのデータセットで経験的にうまく機能する方法を使用することに非常に満足しています。その結果、MLの文献ははるかに速く動きますが、愚かさをさらにふるいにかける必要もあると思います。
クリフAB

24

機械学習と統計が異なる、または相反する科学であることを示唆しているため、この質問には同意しません。

機械学習は統計を広範囲に使用します...機械学習またはデータマイニングソフトウェアパッケージの簡単な調査により、統計にも見られるk-meansなどのクラスタリング手法が明らかになります....主成分分析などの次元削減手法も表示されますまた、統計的手法...ロジスティック回帰でもあります。

私の見解では、主な違いは、伝統的に統計が事前に考えられた理論を証明するために使用され、通常、分析はその主要な理論を中心に設計されたということです。データマイニングまたは機械学習では、通常、結果が得られるという点で反対のアプローチが一般的ですが、質問をしたり理論を形成したりするのではなく、予測する方法を見つけたいだけです!


21

これについては、ASA Statistics Consulting eGroupという別のフォーラムで話しました。私の回答は、より具体的にはデータマイニングでしたが、この2つは密接に関連しています。統計学者は、データマイナー、コンピューターサイエンティスト、エンジニアに気を引きました。違います。それが起こる理由の一部は、彼らの問題の確率的性質を無視しているそれらの分野の人々を見ているからだと思います。一部の統計学者は、データマイニングをデータスヌーピングまたはデータフィッシングと呼んでいます。一部の人々はメソッドを乱用し、誤用していますが、統計学者は幅広いブラシでペイントしているため、データマイニングと機械学習に遅れをとっています。大きな統計結果のいくつかは、統計の分野外から来ています。ブースティングは重要な例の1つです。しかし、Brieman、Friedman、Hastie、Tibshirani、Efronなどの統計学者は、ゲルマンと他の人々はそれを手に入れ、彼らのリーダーシップは統計学者をマイクロアレイと他の大規模な推論問題の分析に導いた。そのため、文化が絡み合うことはないかもしれませんが、コンピューター科学者、エンジニア、統計学者の間には、より多くの協力と協力があります。


19

本当の問題は、この質問が間違っているということです。それは機械学習対統計ではなく、真の科学的進歩に対する機械学習です。機械学習デバイスが90%の時間で正しい予測を提供するが、「なぜ」を理解できない場合、科学全体に対する機械学習の貢献は何ですか?惑星の位置を予測するために機械学習技術が使用されていると想像してください:SVMで多くのことを正確に予測できると考えている独善的な人が大勢いるでしょうが、自分の手にある問題について本当に知っていることは何ですか? ?明らかに、科学は実際には数値予測によって進歩するのではなく、単なる数値以上のものを見ることができるモデル(メンタル、数学)によって進歩します。


1
+1これは、経済学におけるモデルの使用を思い出させます。計量経済学モデルは、いくつかの目的のために構築されています。すなわち、政策分析と予測。一般に、予測を気にかける人は誰もいません。最も重要なのはポリシーシミュレーションです。デビッド・ヘンドリーが言っているように、最良の予測モデルは必ずしも政策分析のための最良のモデルであるとは限らず、逆もまた同様です。後戻りして考える必要があります... モデルの目的は何ですか?どのような質問に答えようとしていますか?そして、これが経験的発見することにどのように適合するか。
グレアムウォルシュ

17

統計学習(別名Machine Learning)は、「例から学ぶ」ことによってソフトウェアを作成するという探求にその起源があります。プログラムを作成するのは難しいが、トレーニングの例を提供するのは簡単な、コンピューターに実行してもらいたいタスク(コンピュータービジョン、音声認識、ロボット制御など)が多数あります。機械学習/統計学習の研究コミュニティは、これらの例から機能を学習するアルゴリズムを開発しました。損失関数は通常、パフォーマンスタスク(視覚、音声認識)に関連していました。そしてもちろん、これらのタスクの基礎となる単純な「モデル」があると信じる理由はありませんでした(そうでなければ、その単純なプログラムを自分でコーディングしていたからです)。したがって、統計的推論を行うという考え全体は意味をなしませんでした。目標は予測精度であり、他には何もありません。

時間が経つにつれて、さまざまな力が機械学習の人々を駆り立て、統計についてさらに学ぶようになりました。1つは、学習プロセスに背景知識やその他の制約を組み込む必要があることです。これにより、人々は生成的確率モデルを検討するようになりました。これらのモデルを使用すると、モデルの構造およびモデルのパラメーターと構造に関する事前知識を通じて事前知識を簡単に組み込むことができるからです。これにより、この分野の豊富な統計文献が発見されました。別の力は、過剰適合の現象の発見でした。これにより、MLコミュニティは相互検証と正則化について学習し、再びこのテーマに関する豊富な統計文献を発見しました。

それにもかかわらず、ほとんどの機械学習作業の焦点は、未知のプロセスについて推論するのではなく、特定のパフォーマンスを示すシステムを作成することです。これは、MLと統計の基本的な違いです。


15

理想的には、彼の質問に答える前に、統計学と機械学習の両方の完全な知識が必要です。私はMLの初心者であるため、私が言うのが素朴な場合はご容赦ください。

SVMと回帰ツリーの経験は限られています。統計の観点からMLに欠けていると私が思うのは、推論のよく発達した概念です。

MLの推論は、(たとえば)平均分類誤差(MCE)、または平衡誤り率(BER)などによって測定されるように、ほぼ排他的に予測精度まで低下するようです。MLは、データをランダム(通常2:1)にトレーニングセットとテストセットに分割する非常に良い習慣です。モデルはトレーニングセットを使用して適合され、パフォーマンス(MCE、BERなど)はテストセットを使用して評価されます。これは優れた手法であり、主流の統計にゆっくりと進んでいます。

MLはまた、リサンプリング手法(特に相互検証)を多用していますが、その起源は統計にあるようです。

ただし、MLには、予測精度を超えた、完全に開発された推論の概念が欠けているようです。これには2つの結果があります。

1)予測(パラメーター推定など)がランダムエラーおよびおそらくシステムエラー(バイアス)の影響を受けやすいという認識はないようです。統計学者は、これが予測の避けられない部分であることを受け入れ、エラーを推定しようとします。統計的手法は、バイアスとランダムエラーが最小の推定値を見つけようとします。それらの技術は通常、データプロセスのモデルによって駆動されますが、常にではありません(ブートストラップなど)。

2)MLでは、同じ母集団からの新しいサンプルに新しいデータにモデルを適用することの限界について、深い理解がないようです(トレーニングテストデータセットアプローチについて前に述べたことにもかかわらず)。さまざまな統計手法、中でもクロスバリデーションと尤度ベースの方法に適用されるペナルティ項は、節約とモデルの複雑さの間のトレードオフで統計学者を導きます。MLのこのようなガイドラインは、はるかにアドホックに見えます。

クロス検証を使用してトレーニングデータセット上の多くのモデルのフィッティングを最適化し、モデルの複雑さが増すにつれて、より良いフィッティングを生成するMLでいくつかの論文を見てきました。精度のわずかな向上は余分な複雑さに見合う価値がなく、当然これが過剰適合につながるという認識はほとんどないようです。次に、これらすべての最適化されたモデルは、予測パフォーマンスのチェックとして、また過剰適合を防ぐためにテストセットに適用されます。2つのことが忘れられています(上記)。予測パフォーマンスには確率的な要素があります。第二に、テストセットに対する複数のテストは、再び過適合になります。「最良の」モデルは、この実験の多くの可能性のある実現の1つから彼/彼女が選んだ完全な感謝なしにML開業医によって選ばれます。

2セント相当。私たちはお互いから学ぶことがたくさんあります。


2
「ベスト」モデルに関するあなたのコメントは、MLプラクティショナーによって選ばれます...メインストリーム統計にも同様に当てはまります。ほとんどのモデル選択手順では、モデル空間の検索が行われていないかのように最終モデルを単純に条件付けします(モデルの平均化がかなり新しい場合)。MLプラクティショナーを倒すための「クラブ」として使用することはできません。
確率論的

MLプラクティショナーとして、私はあなたが描いている絵を認識していません。MLの文献は、ほとんどすべての正規化、MDL、ベイジアン、SRM、およびモデルの複雑さを制御する他のアプローチのバリエーションに関するものです。私が座っているところから、statの複雑さを制御する方法はあまり構造化されていないようですが、それはあなたにとってバイアスです。
ムハンマドアルカウリ

13

この質問は、2015年のいわゆるデータサイエンスのスーパーカルチャー、データサイエンスの50年のデビッドにまで拡張することができ、そこでは、たとえば直接的な観点など、統計やコンピューターサイエンス(機械学習を含む)とは異なる視点に直面します(異なる人から)そのような:

  • 何世紀にもわたって統計があったのに、なぜデータサイエンスが必要なのですか?
  • データサイエンスは統計です。
  • 統計のないデータサイエンスも可能です。
  • 統計は、データサイエンスの最も重要でない部分です。

そして、例えば、歴史的、哲学的考察を盛り込んだ:

今日のデータサイエンスに関するプレゼンテーションをレビューするとき、統計が非常に短いものであるため、データサイエンスとして教えられている基本的なツール、例、アイデアがすべてであることに気付かずにはいられません。文字通り博士号で訓練された誰かによって発明された 多くの場合、実際に使用されているソフトウェアは、修士号または博士号を持つ人によって開発されました。統計で。何世紀にもわたって蓄積された統計学者たちは、圧倒されすぎて完全に書き尽くすことができず、データサイエンスの教育、研究、演習に隠れることはできません。

このエッセイは、議論に対する多くの回答と貢献を生み出しました。


3
これは、最近の人気のあるスレッドstats.stackexchange.com/questions/195034で言及する価値がある論文のように見えますが、誰もそこに言及していないと思います。
アメーバ

1
この論文を要約した新しい答えをそこに投稿すれば素晴らしいと思います。
アメーバ

私は最初に自分のために与えられたすべての答えを要約する必要があります
ローランデュバル

12

機械学習と統計の概念的/歴史的な違いが何であるかは本当にわかりませんが、それはそれほど明白ではないでしょう...ブライマンの論文の10年後、多くの人々は両方とも...

とにかく、 モデルの予測精度に関する質問に興味を持ちました。モデルの精度を常に測定できるとは限らないことを覚えておく必要があります。より正確には、エラーを測定するときに暗黙的にモデリングを行うことがほとんどです。

例えば、時系列予測における絶対誤差の平均は、時間にわたる平均であり、性能は、ある意味で、であると仮定して中央値を予測する手順の性能を測定固定し、いくつかを示しエルゴード性を。(何らかの理由で)地球上の平均気温を今後50年間予測する必要がある場合、およびモデリングが過去50年間うまく機能する場合...という意味ではありません...

より一般的には、(覚えているなら、無料の昼食とは呼ばれません)あなたはモデリングなしでは何もできません...さらに、統計は質問に対する答えを見つけようとしていると思います。これは科学において非常に重要な質問であり、学習プロセスを通して答えることはできません。John Tukeyを述べるために(彼は統計学者でしたか?):

一部のデータと回答に対する苦痛の願望の組み合わせは、特定のデータ本体から妥当な回答を抽出できることを保証するものではありません

お役に立てれば !


12

明らかに、2つの分野は明らかに似ているが異なる問題に直面しており、類似するが同一ではない概念で類似するが同一ではない方法で、異なる部門、ジャーナル、会議で機能します。

CressieとReadのPower Divergence Statisticを読んだとき 、すべてがきちんと収まりました。それらの式は、一般的に使用されるテスト統計を、1つの指数ラムダによって変化するものに一般化します。lambda = 0とlambda = 1の2つの特別なケースがあります。

コンピューターサイエンスと統計は、連続体に沿って適合します(他のポイントを含む可能性があります)。ラムダの1つの値では、統計サークルで一般的に引用される統計を取得し、もう1つの値では、Comp Sciサークルで一般的に引用される統計を取得します。

統計

  • ラムダ= 1
  • 正方形の合計が多く表示されます
  • 変動性の尺度としての分散
  • 関連性の尺度としての共分散
  • モデル適合の尺度としてのカイ二乗統計

コンピュータサイエンス:

  • ラムダ= 0
  • ログの合計が多く表示されます
  • 変動性の尺度としてのエントロピー
  • 関連性の尺度としての相互情報
  • モデル近似の尺度としてのG 2乗統計

9

ファンシーなコンピューターアルゴリズムを1回実行すると、CS会議のプレゼンテーション/統計ペーパーが得られます(すごい高速収束です!)。あなたはそれを商品化し、100万回実行します-そして、アルゴリズムの特性を一般化するために確率と統計を採用する方法を知っていない限り、あなたは壊れます(痛い、なぜ私はいつも役に立たず、再現できない結果を得ていますか?)


3
私はこの答えを否定しました。このような質問には個人的な意見が含まれることは避けられませんが、IMOはより実質的な批評のために努力すべきです。これはただの暴言として外れます。
アンディW

@AndyW、これはもちろん、私が見ているものの誇張です。統計的に先を見越して失敗することは、学術界にも当てはまります。心理学または医学における公表された結果の再現性は、せいぜい25%(たとえば、simplystatistics.tumblr.com / post / 21326470429 /…を参照)です。 95%。OPは、統計にコンピューターサイエンスを取り入れることを望んでいました。おそらく、コンピューターサイエンスはいくつかの統計を取り入れるべきであり、その理由を説明しました。
StasK

5
@StasKあなたはいくつかの重要なポイントを挙げていると思いますが、それらを少し積極的にしないようにしてみませんか?
ガラ

2
私はこの簡潔な答えを楽しんだ。
イアンウォーバートン

6

データ生成モデルに焦点を当てるのが理にかなっている統計の応用分野があります。動物実験、臨床試験、産業DOEなどの設計された実験では、統計学者はデータ生成モデルとは何かを知ることができます。MLは通常、「大きな」観測データに基づく予測の別の非常に重要な問題に焦点を当てているため、MLはこの非常に重要な問題に多くの時間を費やす傾向はありません。つまり、MLを「大規模」計画実験に適用できないわけではありませんが、統計情報には、リソースに制約のある実験から生じる「小規模」データ問題に関する特定の専門知識があることを認識することが重要です。

結局のところ、手近にある問題を解決するために最適なものを使用することに全員が同意できると思います。たとえば、予測を目的とする非常に幅広いデータを生成する設計実験があります。統計的設計の原則はここで非常に役立ち、MLメソッドは予測子を作成するのに役立ちます。


4

私の考えでは、化学は物理学のサブブランチである必要があるように、機械学習は統計のサブブランチである必要があると思います。

物理学に触発された化学の見方はかなり堅実だと思います(私は推測します)。物理的には同等のものが知られていない化学反応はないと思います。物理学は、化学レベルで見ることができるすべてのことを説明することで素晴らしい仕事をしたと思います。今、物理学者の挑戦は観測できない極端な条件下で、量子レベルでの小さな謎を説明しているようです。

機械学習に戻りましょう。私それは統計下のサブブランチであるべきだと思います(化学が物理学のサブブランチである方法だけです)。

しかし、どういうわけか、機械学習の現在の状態または統計のいずれかが、これを完全に実現するには十分に成熟していないように思えます。しかし、長期的には、一方は他方のサブブランチにならなければならないと思います。統計に基づいて取得するのはMLだと思います。

私は個人的に、関数または予測を推定/推測するための「学習」および「サンプルの分析」は、本質的にすべて統計の問題だと考えています。


3
生物学、心理学、社会学も物理学の「サブブランチ」である必要がありますか?
アメーバ

正しい..心理学は、非常に複雑な生物学的機械を含む単なる入出力です。ある日、車を心理学者に送ってそのエラーを診断する必要があるかもしれません(心理学者自身がコンピューターかもしれません)。
穴居人

1
数学がすべての父であるように思えます。そこから数学を応用し、そこから物理学やその他のものが生まれました。統計はその1つです。MLはそれ自体がブランチである必要はなく、代わりに統計に組み込まれると思います。しかし、MLがそれ自体のブランチになる場合、私はそれが統計の子/サブブランチであることを好みます。
穴居人

4

ブライアンカッフォによるCourseraコース「実生活におけるデータサイエンス」より

機械学習

  • 予測を強調する
  • 予測パフォーマンスを介して結果を評価します
  • モデルの複雑さ自体ではなく、過剰適合への懸念
  • パフォーマンス重視
  • 一般化可能性は、新規データセットのパフォーマンスを通じて得られます
  • 通常、スーパーポピュレーションモデルは指定されていません
  • パフォーマンスと堅牢性に対する懸念

従来の統計分析

  • スーパーポピュレーション推論を強調
  • 先験的仮説に焦点を当てる
  • より複雑なモデルのパフォーマンスがわずかに優れている場合でも、複雑なモデルよりも単純なモデルが優先されます(節約)
  • パラメータの解釈可能性の重視
  • 統計モデリングまたはサンプリングの仮定により、データを対象の母集団に関連付けます
  • 仮定と堅牢性に対する懸念

-5

コンピュータサイエンティストとして、統計的アプローチを検討するとき、私はいつも興味をそそられます。私にとって何度も、統計分析で使用される統計モデルは、多くの状況でデータに対して非常に複雑すぎるように見えます!

たとえば、データ圧縮と統計の間には強力なリンクがあります。基本的に、データを適切に予測できる優れた統計モデルが必要です。これにより、データの非常に優れた圧縮が実現します。コンピュータサイエンスでは、データを圧縮するとき、常に統計モデルの複雑さと予測の精度が非常に重要です。圧縮後にデータファイル(音声データ、画像データ、またはビデオデータを含む)が大きくなることを望んでいません!

たとえば、最小記述長正規化最尤法など、統計に関するコンピューターサイエンスにはもっと動的なものがあることがわかりました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.