データマイニング、統計、機械学習、AIの違いは何ですか?


208

データマイニング、統計、機械学習、AIの違いは何ですか?

非常によく似た問題を解決しようとする4つの分野であるが、異なるアプローチであると言うのは正確でしょうか?彼らは正確に何を共有していて、どこで違うのですか?それらの間に何らかの階層がある場合、それは何でしょうか?

同様の質問が以前に聞かれましたが、まだわかりません。

回答:


109

これらの間にはかなりの重複がありますが、いくつかの区別をすることができます。必然的に、私はいくつかの事柄を単純化しすぎたり、他のことに簡潔にしたりしなければなりませんが、これらの分野についてある程度の感覚を与えるために最善を尽くします。

第一に、人工知能は他のものとはかなり異なります。AIは、インテリジェントエージェントを作成する方法の研究です。実際には、インテリジェントエージェント(たとえば、人)のように動作し、タスクを実行するようにコンピューターをプログラムする方法です。これはいない持っているすべての学習や誘導に関与し、それだけで「より良いネズミ捕りを構築」する方法することができます。たとえば、AIアプリケーションには、進行中のプロセスを監視および制御するプログラムが含まれています(たとえば、アスペクトAが低すぎるようであれば、アスペクトAを増やします)。AIは、「愚かな」ことをしない限り、マシンが行うことのほとんどすべてを含めることができることに注意してください。

ただし、実際には、インテリジェンスを必要とするほとんどのタスクには、経験から新しい知識を引き出す能力が必要です。したがって、AI内の大きな領域は機械学習です。何らかのパフォーマンス指標によると、コンピュータープログラムは、タスクでのパフォーマンスが経験によって向上する場合、経験からタスクを学習すると言われています。機械学習には、情報を自動的に抽出できるアルゴリズムの研究が含まれます(つまり、オンラインの人間の指導なしで)。確かに、これらの手順の一部には、古典的な統計から直接派生した、またはそれにヒントを得たアイデアが含まれていますが、そうではありませんすることが。AIと同様に、機械学習は非常に広範なものであり、それに誘導的なコンポーネントがある限り、ほとんどすべてを含めることができます。機械学習アルゴリズムの例としては、カルマンフィルターがあります。

データマイニングは、インスピレーションとテクニックの多くを機械学習から(および統計からも)取り入れてきましたが、異なる目的に置かれています。データマイニングは、目標を念頭に置いて、特定の状況で、特定のデータセットに対して個人によって実行されます。通常、この人は機械学習で開発されたさまざまなパターン認識技術の力を活用したいと考えています。多くの場合、データセットは大規模複雑であり、特別な問題がある場合があります(観測値よりも多くの変数があるなど)。通常、目標は、事前にほとんど知識がなかったエリアで予備的な洞察を発見/生成するか、将来の観測を正確に予測できるようにすることです。さらに、データマイニング手順は、「監視なし」(答えがわからない-発見)または「監視あり」(答えがわかる-予測)のいずれかです。通常、目標は、基礎となるデータ生成プロセスのより高度な理解を深めることではないことに注意してください。一般的なデータマイニング手法には、クラスター分析、分類および回帰ツリー、ニューラルネットワークが含まれます。

このサイトの統計情報を説明するのに多くを語る必要はないと思いますが、おそらくいくつかのことが言えるでしょう。古典統計(ここでは、頻度主義者とベイジアンの両方を意味します)は、数学のサブトピックです。私はそれを主に確率について知っていることと最適化について知っていることの共通部分と考えています。数学的統計は、単なるプラトニックな探究の対象として研究することができますが、ほとんどの場合、数学の他のより希少な領域よりも実用的であり、性格に当てはまると理解されています。そのため(特に上記のデータマイニングとは対照的に)、特定のデータ生成プロセスをよりよく理解するために主に使用されます。したがって、通常は正式に指定されたモデルで始まりますそして、これから、ノイズの多いインスタンスからそのモデルを正確に抽出する(つまり、損失関数を最適化することで推定)、他の可能性(サンプリング分布の既知の特性に基づく推論)と区別できるようにする派生プロシージャです。プロトタイプの統計的手法は回帰です。


1
ほとんどの投稿に同意しますが、AIはほとんどの場合、インテリジェントエージェント(とにかくインテリジェンスとは何ですか)を作成しようとせず、合理的なエージェントを作成しようとします。合理的とは、「世界に関する利用可能な知識があれば最適」を意味します。確かに最終的な目標は一般的な問題解決者のようなものです。
kutschkem

3
申し訳ありませんが、データマイニングと機械学習の違いはまだわかりません。私が見るものから、データマイニング=機械学習の教師なし学習。機械学習は新しい洞察の発見について監視されていませんか?
dtc 14年

匿名ユーザーは、データマイニングと機械学習の違いをパラメーターベースで分類する表について、このブログ投稿を提案しました。
グン

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.ニューラルネットワークは、データマイニングで使用される機械学習用に設計されていないアルゴリズムであるクラスター分析と比較して、データマイニングで使用される機械学習ツールの例と言っても安全ですか?
t0mgs

実際には、@ TomGranot-Scalosubのようにすべてがかなり曖昧です。ニューラルネットワークは間違いなくMLであり、確かにクラスター分析とCARTはML研究者によって研究されていると思います。私はアイデアをいくぶん明確にし、はっきりさせようとしていますが、これらのカテゴリーの間に明確な境界線はありません。
GUNG

41

他の回答の多くは主要なポイントをカバーしていますが、存在する場合は階層と私がそれを見る方法を求めましたが、それらはそれぞれ独自の分野ですが、それぞれが構築されているため、誰もまだ言及していない階層があります前のもの。

統計とは、単に数値であり、データを定量化することです。データの関連プロパティを見つけるためのツールは数多くありますが、これは純粋な数学にかなり近いものです。

データマイニングとは、統計やその他のプログラミング方法を使用して、データに隠されたパターンを見つけ、何らかの現象を説明できるようにすることです。データマイニングは、一部のデータで実際に何が起こっているかについての直感を構築し、プログラミングよりも数学に対しては少しばかりですが、両方を使用します。

Machine Learningは、データマイニングテクニックと他の学習アルゴリズムを使用して、一部のデータの背後で何が起こっているかのモデルを構築し、将来の結果を予測できるようにします。数学は多くのアルゴリズムの基礎ですが、これはプログラミングに向いています。

人工知能は、によって建てられたモデル使用して機械学習とする他の方法理性の世界について、インテリジェントに上昇を与える行動、このゲームをプレイしたり、ロボット/車を運転しているかどうかを。人工知能には、アクションが世界のモデルにどのように影響するかを予測することで達成する目標があり、その目標を最もよく達成するアクションを選択します。非常にプログラミングベース。

要するに

  • 統計は 数値を定量化します
  • データマイニングで パターンを説明
  • 機械学習 はモデルで予測します
  • 人工知能の 動作理由

これが言われていると、AIのみに該当するいくつかのAIの問題があり、他の分野でも同様ですが、今日の興味深い問題のほとんど(たとえば自動車の運転)は、これらすべてと簡単かつ正確に呼ばれます。これがあなたが尋ねたそれらの間の関係を明確にすることを願っています。


WEKAまたはRapidMinerを使用したことがありますか?たとえば、EMはデータマイニング内にあり、モデルを適用します。それとは別に、マリアナ・ソファーによって与えられた定義をチェックして、あなたの答えと比較してください。BishopとRussell / Norvigを読んだのは数年前ですが、defを覚えている限りです。マリアナ・ソファーがより適しています。ところで、データマイニングは(「のみ」)知識発見の前の主要なステップです。データマイニングは、適切なパラメーターを使用したアルゴリズムを使用する場合にのみ、データを取得し、その後情報を取得します。データマイニングではパターンを説明できません。
ニーモニック

いいえ、@mnemonic、AIのこの定義は非常に日付がマリアナの、よりラッセルとNorvigに沿ってずっとある
nealmcb

2
統計の説明は不十分だと思います。quantifyinf番号は、統計局が報告する統計ですが、これは、データのモデルを作成し、パラメーターを推定し、推論を行う統計科学とは異なります。また、データマイニングと機械学習の関係は逆さまです。データサイエンスでは機械学習手法を使用しますが、その逆ではありません。Ken van Harenの回答もご覧ください。
リチャードハーディ

25
  • 統計は、確率モデル、特にデータを使用したこれらのモデルの推論に関係しています。
  • 機械学習は、特定のデータが与えられた場合に特定の結果を予測することに関係しています。ほぼすべての合理的な機械学習方法は、正式な確率モデルとして定式化できるため、この意味で機械学習は統計とほとんど同じですが、一般的にパラメーター推定(予測のみ)を気にせず、焦点を当てるという点で異なります計算効率と大規模なデータセット。
  • データマイニングは(私が理解しているように)機械学習に適用されます。大規模なデータセットに機械学習アルゴリズムを展開する実際的な側面に重点を置いています。機械学習に非常によく似ています。
  • 人工知能は、コンピューターの知能(任意の定義)に関係するものです。そのため、多くのことが含まれいます。

一般に、確率モデル(および統計)は、機械の知識と理解を形式的に構造化する最も効果的な方法であることが証明されており、他の3つ(AI、ML、およびDM)のほとんどすべてが今日のサブフィールド統計。統計の影の腕になる最初の学問ではありません...(経済学、心理学、バイオインフォマティクスなど)


5
@Ken-経済心理学やAIを統計の影の腕として記述するのは不正確です-統計がそれぞれの分野で関心のある問題の多くを分析するためにそれぞれの中で頻繁に使用されている場合でも。ほとんどの医学的結論がデータ分析に大きく依存している場合でも、統計の
mpacer

@Ken-これは素晴らしい反応ですが、AIのその他の構成要素をより完全に説明できます。たとえば、歴史的にAIには、非確率モデルの大量の分析(生産システム、セルオートマトンなど、たとえばNewell&Simon 1972を参照)も含まれています。もちろん、そのようなモデルはすべて、いくつかの確率モデルの限定的なケースですが、ずっと後までそのような静脈で分析されませんでした。
mpacer

4
データマイニングは機械学習にとどまりません。実際には、データを保存してインデックスを作成し、アルゴリズムを高速化する方法が含まれているためです。主にAI、ML、および統計からメソッドを取得し、それらを効率的で巧妙なデータ管理およびデータレイアウト手法と組み合わせることで特徴付けられます。データ管理を伴わない場合は、単に「機械学習」と呼ぶことができます。ただし、いくつかのタスクがあります。特に、「学習」を伴わず、データ管理も行わない「監視なし」、これらは依然として「データマイニング」(クラスタリング、外れ値検出)と呼ばれます。
アノニムース

21

それらはすべて関連していると言えますが、すべて異なるものです。統計やデータマイニングなど、それらの間で共通点がある場合もありますが、クラスタリング手法を使用します。
それぞれを簡単に定義してみましょう。

  • 統計は、主に古典的な数学的手法に基づいた非常に古い分野であり、データマイニングが時々物事を分類およびグループ化するのと同じ目的に使用できます。

  • データマイニングは、大量の事実または要因が与えられた状況を分類または予測できるパターンを検出するためのモデルの構築で構成されています。

  • 人工知能(Marvin Minsky *を確認)は、チェスをプレイするプログラムを構築するなど、プログラミング方法で脳がどのように機能するかをエミュレートしようとする分野です。

  • 機械学習は、知識を構築し、それを何らかの形でコンピューターに保存するタスクです。その形式は、数学的モデル、アルゴリズムなどです。パターンの検出に役立つものは何でも。


2
いいえ、現代のAIのほとんどは、初期の「脳をエミュレートする」アプローチに従っていません。効用を最大化する環境で動作する「合理的なエージェント」の作成に焦点を当てており、機械学習により密接に関連しています。Russell and Norvigの本を参照してください。
nealmcb

1
私はあなたの定義におけるMLとデータマイニングの違いを見ていない
マーティン・トーマ

16

機械学習(データマイニング軸)に最も精通しているので、それに集中します。

機械学習は、非iidデータ、アクティブ学習、半教師あり学習、構造化データ(文字列やグラフなど)を使用した学習など、非標準的な状況での推論に関心を持つ傾向があります。MLはまた、学習可能なものの理論的な限界に興味を持つ傾向があります。これは、使用されるアルゴリズム(サポートベクターマシンなど)の基礎となることがよくあります。MLは、ベイジアンの性質を持つ傾向があります。

データマイニングは、あなたがまだ知らないデータのパターンを見つけることに興味があります。統計の探索的データ分析とは大きく異なるのかどうかはわかりませんが、機械学習では一般に、より明確な問題を解決する必要があります。

MLは、過剰適合が問題である小さなデータセットにより関心があり、データマイニングは、問題がデータ量を処理している大規模なデータセットに関心がある傾向があります。

統計と機械学習は、データマイナーが使用する基本的なツールの多くを提供します。


「MLは小さなデータセットに関心がある傾向がある」とは同意しません。
マーティントーマ

データマイニングは、小さなデータセットを使用すると、偽の関連付けを見つける可能性が高くなる(および検出するのが難しくなる)ため、はるかに困難になります。できるだけ少ない選択を行う小さなデータセットの推論では、はるかに安全になる傾向があります。
ディクランMarsupial

13

これが私の見解です。2つの非常に広範なカテゴリから始めましょう。

  • でも、何でもスマートになりすましがある人工知能(MLおよびDMを含みます)。
  • データを要約するものはすべて統計です。ただし、これは通常、結果の妥当性に注意を払うメソッドにのみ適用されます(MLおよびDMでよく使用されます)

通常、MLとDMは両方ともAIと統計の両方です。これらは通常、両方の基本的なメソッドを伴うためです。以下にいくつかの違いを示します。

  • 機械学習、あなたが持っている、明確に定義された目的を(通常は予測
  • 、データマイニング、あなたは基本的に「目標を持って、私はなかった何かではない前に、知っているの

また、データマイニングには通常、より多くのデータ管理、つまり効率的なインデックス構造とデータベースでデータを整理する方法が含まれます。

残念ながら、それらは簡単に分離できません。たとえば、「教師なし学習」があります。これは、目標に向かって最適化できないため、MLよりもDMと密接に関連していることがよくあります。一方、DMメソッドは評価するのが難しく(あなたが知らないことをどのように評価しますか?)、いくつかの情報を省くことにより、機械学習と同じタスクで評価されることがよくあります。ただし、これは通常、実際の評価目標に向けて最適化できる機械学習方法よりも動作が悪いように見えます。

さらに、それらはしばしば組み合わせて使用​​されます。たとえば、データマイニング手法(たとえば、クラスタリング、または教師なし外れ値検出)を使用してデータを前処理し、前処理されたデータに機械学習法を適用して、より良い分類器を訓練します。

機械学習は通常、評価がはるかに簡単です。スコアやクラス予測などの目標があります。精度とリコールを計算できます。データマイニングでは、一部の情報(クラスラベルなど)を除外し、メソッドが同じ構造を検出したかどうかをテストすることで、ほとんどの評価が行われます。クラスラベルはデータの構造を完全にエンコードすると想定しているため、これはある意味では単純です。実際にデータの新しい何かを発見するデータマイニングアルゴリズムを罰します。間接的に評価する別の方法は、検出された構造が実際のMLアルゴリズムのパフォーマンスをどのように改善するかです(たとえば、データのパーティション分割または外れ値の削除時)。それでも、この評価は既存の結果の再現に基づいていますが、これは実際にはデータマイニングの目的ではありません...


1
あなたの反応は非常に洞察力に富んでいます。最後の段落、MLのパフォーマンスの評価とDMのパフォーマンスの評価の違いについて特に感謝します。
justis

8

私は言われたことにいくつかの観察を追加します...

AIは、タスクの計画や他のエンティティとの協力から、手足を歩く動作の学習に至るまで、推論に似た、または知覚的に見える活動を行うマシンに関係するあらゆる用語の非常に広い用語です。簡潔な定義は、AIはコンピューターに関連するものであり、まだうまくいかないことです。(一度それをうまく行う方法を知ったら、それは一般的にそれ自身の名前を取得し、もはや「AI」ではありません。)

ウィキペディアとは対照的に、パターン認識と機械学習は同じ分野ですが、前者はコンピューターサイエンスの専門家が実践し、後者は統計学者とエンジニアが実践しているという印象です。(多くの技術分野は、さまざまなサブグループによって何度も発見されており、多くの場合、独自の専門用語や考え方を持ち込んでいます。)

私の考えでは、データマイニングは、とにかく機械学習/パターン認識(データを処理する手法)を採用し、それらをデータベース、インフラストラクチャ、およびデータ検証/クリーニング手法でラップします。


6
機械学習とパターン認識は同じものではありません。機械学習は回帰や因果推論などにも関心があります。パターン認識は、機械学習で関心のある問題の1つにすぎません。私が知っている機械学習の人々のほとんどは、コンピュータサイエンス部門にいます。
ディクランマースピアル

2
@Dikranは同意しますが、MLとPRはしばしばエイリアスされ、データ分析の同様のトピックの下に表示されます。私のお気に入りの本は、実際にはクリストフ・M・ビショップのパターン認識と機械学習です。JSSのJohn MainDonaldによるレビューj.mp/etg3w1を以下に示します。
CHL

また、CSの世界では、「機械学習」という言葉は「パターン認識」よりもはるかに一般的だと感じています。
バイエルジ

また、ここではMLはCS用語であると感じます。
カールモリソン

3

悲しいことに、これらの分野の違いは主にそれらが教えられているところです:統計は数学部、AI、コンピューターサイエンス部の機械学習に基づいており、データマイニングはより適用されています(ソフトウェア会社によって開発されたビジネスまたはマーケティング部によって使用されます) 。

まず、AI(インテリジェントシステムを意味する可能性があります)は、従来、統計的推定ではなく、ロジックベースのアプローチ(エキスパートシステムなど)を意味していました。数学部に基づく統計は、明確な科学モデルがあり、利用可能な限られた実験データを処理するために統計が必要な実験科学での強力な応用経験とともに、非常に優れた理論的理解を有しています。多くの場合、非常に小さなデータセットから最大の情報を絞り出すことに焦点が当てられています。さらに、数学的証明への偏りがあります。アプローチに関することを証明できなければ、公開されません。これは、分析を自動化するためのコンピューターの使用において統計が遅れていることを意味する傾向がありました。再び、プログラミングの知識がないため、統計学者は計算の問題が重要になる大規模な問題に取り組むことができませんでした(GPUやhadoopなどの分散システムを考慮してください)。バイオインフォマティクスなどの分野は、統計をこの方向に動かしていると思います。最後に、統計学者はより懐疑的な束であると言うでしょう:彼らはあなたが統計で知識を発見したと主張するのではなく、科学者は仮説を思いつき、統計学者の仕事は仮説がデータによって裏付けられていることを確認することです。機械学習はcs部門で教えられていますが、残念ながら適切な数学を教えていません:多変数計算、確率、統計、最適化は一般的ではありません...例から学ぶなどの漠然とした「魅力的な」概念があります...統計学習の要素30ページ。これは、研究者が常に自分のアルゴリズムがより優れていることを証明するデータセットを見つけることができるため、理論的な理解が非常に少なく、アルゴリズムの爆発がほとんどないことを意味する傾向があります。したがって、MLの研究者が次の大きなことを追いかけるにつれて、誇大広告の巨大な段階があります:ニューラルネットワーク、ディープラーニングなど。より懐疑的な統計学者は無視されます。最後に、経験主義者の傾向があります。基本的に、アルゴリズムで十分なデータを投げると正しい予測を「学習」するという根本的な信念があります。私はMLに偏っていますが、統計学者が無視しているMLの基本的な洞察があります。コンピューターは統計の応用に革命をもたらすことができるということです。

a)標準テストとモデルの適用を自動化する2つの方法があります。たとえば、一連のモデルの実行(線形回帰、ランダムフォレストなど、さまざまな入力の組み合わせ、パラメーター設定など)。これは実際には起こりませんでしたが、kaggleの競合他社が独自の自動化技術を開発しているのではないかと思います。b)巨大なデータに標準統計モデルを適用する:たとえば、Google翻訳、レコメンダーシステムなどを考えてみてください(たとえば、人々がそのように翻訳したり推奨したりすることを主張する人はいません。しかし、その便利なツールです)。基礎となる統計モデルは簡単ですが、これらの方法を数十億のデータポイントに適用する際には膨大な計算上の問題があります。

データマイニングは、この哲学の集大成です...データから知識を抽出する自動化された方法を開発します。ただし、より実用的なアプローチがあります。本質的には、包括的な科学的理論(マーケティング、不正検出、スパムなど)がなく、大量のデータの分析を自動化することを目的とする行動データに適用されます:間違いなく統計学者のチームは、十分な時間を与えられればより良い分析を作成できますが、コンピューターを使用する方が費用効率が高くなります。さらに、D。Handが説明しているように、二次データの分析です。しっかりした実験計画で科学的な質問に答えるために明示的に収集されたデータではなく、とにかく記録されるデータです。データマイニング統計など、D Hand

つまり、従来のAIは統計ではなく論理ベースであり、機械学習は理論のない統計であり、統計は「コンピューターのない統計」であり、データマイニングは最小限のユーザー介入で統計分析を行う自動ツールの開発です。


この回答は非常に多くの部分に分かれているので、説明するのは難しく、不必要に長くなりますが、違いは他の何よりも懲戒の伝統と強調に関係しているということは確かです。
Tripartio

1

データマイニングとは、人々が意思決定に使用できる隠されたパターンや未知の知識を発見することです。

機械学習とは、新しいオブジェクトを分類するモデルを学習することです。


機械学習分類についてのみですか?機械学習を他の目標に使用することはできませんか?
GUNG

@gung絶対にありません。強化学習は、私見、MLの最も特徴的なサブフィールドであり、分類に基づいているのではなく、目標の達成に基づいているとは言いません。
nbro

@nbro、そのコメントは、OPがMLをどれだけ狭く定義しているかを再考するためのOPへのヒントとなるはずでした。
グン

0

私の意見では、人工知能は機械学習、データマイニング、パターン認識などの分野の「スーパーセット」と考えることができます。

  • 統計は、AIで使用されているすべての数学モデル、手法、および定理を含む数学の分野です。

  • 機械学習は、上記の統計モデルを適用し、データ、つまりクラスタリングや分類などの予測分析を意味するすべてのアルゴリズムを含むAIの分野です。

  • データマイニングは、データから有用で重要なパターンを抽出するために、上記のすべての手法(主に機械学習)を使用する科学です。データマイニングは通常、大規模なデータセット、つまりビッグデータから有用な情報を抽出することに関係しています。


-1

方法:学習する機械を教える

データの意味のあるパターンを認識する:データマイニング

既知のパターンから結果を予測する:ML

生データを再マップするための新機能を見つける:AI

この鳥の脳には本当に簡単な定義が必要です。


-1

多くの場合、データマイニングは、将来のデータを「予測」しようとするか、何かが発生する理由を「説明」しようとします。

統計は、私の目の仮説を検証するためにより多く使用されます。しかし、これは主観的な議論です。

統計学者とデータマイナーの明らかな違いの1つは、彼らが見る要約統計のタイプにあります。

統計はしばしばR²と精度に制限されますが、データマイナーはAUC、ROC曲線、リフト曲線などを調べ、コスト関連の精度曲線を使用することも懸念する場合があります。

データマイニングパッケージ(たとえば、オープンソースWeka)は、入力選択、サポートベクターマシン分類などの技術を組み込んでいますが、これらはJMPなどの統計パッケージにはほとんどありません。私は最近、jmpの人々からの「jmpでのデータマイニング」のコースに参加します。視覚的には強力なパッケージですが、いくつかの重要なデータマイニングのpre / post / midテクニックが欠落しています。入力選択は手動で行われ、データマイニングでデータの洞察を得るために、大規模なデータでアルゴリズムをスマートにリリースし、出力を自動的に確認するのが目的です。このコースは明らかに統計学の人々によって教えられており、2つの考え方の違いを強調しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.