データマイニングと統計分析の違いは何ですか?


19

データマイニングと統計分析の違いは何ですか?

ある程度の背景として、私の統計教育はかなり伝統的だったと思います。特定の質問が提起され、調査が設計され、データが収集および分析されて、その質問に関する洞察が得られます。その結果、私は常に「データed」、つまり大規模なデータセット内のパターンを探し、これらのパターンを使用して結論を​​出すことを検討していました。私は後者をデータマイニングに関連付ける傾向があり、これは常に(アルゴリズム変数選択ルーチンのようなものとともに)いくぶん無原則だと考えてきました。

それにもかかわらず、データマイニングに関する大規模で成長中の文献があります。多くの場合、このラベルは、クラスタリング、ツリーベースの分類などの特定の手法を指します。しかし、少なくとも私の観点からは、これらの手法は、データのセットに対して「緩め」またはアドレス指定に構造化された方法で使用できます質問。前者をデータマイニング、後者を統計分析と呼びます。

私は学術行政で働いており、問題や機会を特定するために「データマイニング」を行うように頼まれています。私の背景と一致して、私の最初の質問は次のとおりでした:あなたは何を学びたいですか、あなたは問題に貢献すると思うものは何ですか?彼らの回答から、私と質問をする人は、データマイニングの性質と価値について異なる考えを持っていることが明らかでした。



3
重複している場合、データマイニングと機械学習は同じものであると推測できます。
ジョージドンタス

@George Dontasええ、私がここに来たのは、MLとデータマイニングに違いがあることを期待している他の質問にコメントのリンクから来たからです。
DJG 14

回答:


20

ジェローム・フリードマンはしばらく前に論文を書きました:データマイニングと統計:接続とは?、これは私はあなたが面白いと思います。

データマイニングは主に商業上の関心事であり、ビジネスニーズ(ソフトウェアおよびハードウェアシステムをビジネスに販売するベンダーの「ニーズ」と相まって)によって推進されました。フリードマンが指摘したことの1つは、誇張されているすべての「機能」は、統計の外側(ニューラルネットのようなアルゴリズムや手法からGUI駆動のデータ分析まで)であり、従来の統計の提供はこれらのシステムの一部ではないようだということです(回帰、仮説検定など)。「当社のコア手法はほとんど無視されてきました。」また、あなたが指摘したとおりにユーザー主導で販売されました。これが私のデータです。これが私の「ビジネス上の質問」です。答えをください。

フリードマンは挑発しようとしていたと思う。彼は、データマイニングが方法論に関する重要な知的基盤を持っているとは思わなかったが、これは変化し、統計学者はそれを無視するのではなく役割を果たすべきだと考えた。

私自身の印象では、これは多かれ少なかれ起こったということです。線がぼやけています。統計学者は現在、データマイニングジャーナルに公開しています。最近のデータマイナーは、ある種の統計トレーニングを受けているようです。データマイニングパッケージはまだ一般化線形モデルを誇張していませんが、クラスタリングとニューラルネットに加えて、ロジスティック回帰はアナリストの間でよく知られています。最適な実験設計はデータマイニングコアの一部ではないかもしれませんが、ソフトウェアはp値を吐き出すように調整できます。進捗!


1
これは素晴らしい論文であり、データマイニングとは何か、そして統計との違いについての私の見解と一致しています。キャッチは、1997年からです!論文の起訴状または推奨事項に注意してください。ただし、データマイニングについていく程度に注意してください。追いつくために、データマイニングに関する最新の本を入手する必要があるようです。
ブレット

ねえ、私はそれがタイムスパンに気づくのは面白いだろうと思ったので、意図的に日付を締め出しました。:) Michael BerryとGordon Linoffの本はかなり優れており、統計学者にアピールします(統計的手法を学ぶよりも、より広範な露出のため)。SASのEnterprise MinerやSPSSのClementineなどのベンダー製品に関する本の1つをざっと読んで、この分野の「エンタープライズ」側の曖昧さを感じたい場合に役立ちます。製品自体を使用する予定がない限り、購入することはお勧めしません。
アルス

10

統計とデータマイニングの違いは、統計とコンピューターサイエンスの異なる伝統に由来するため、主に歴史的な違いです。データマイニングは、人工知能と統計の分野での仕事から並行して成長しました。

Witten&Frankのセクション1.4に私の視点が要約されているので、詳しく説明します。

機械学習と統計の違いは何ですか?Cynicsは、この分野での商業的関心(および誇大広告)の爆発的増加を注意深く見て、データマイニングを統計とマーケティングと同一視しています。実際、データ分析手法には連続性があり、多次元的なものがあるため、機械学習と統計の境界線を探すべきではありません。標準統計コースで教えられたスキルに由来するものもあれば、コンピューターサイエンスから生まれた機械学習の種類とより密接に関連するものもあります。歴史的に、両者にはかなり異なる伝統がありました。強調の単一の違いを指すように強制された場合、統計は仮説のテストにより関心があった可能性があります。

過去に、機械学習と統計学で非常によく似た方法が並行して開発されました...

しかし、今では2つの視点が収束しています。

NB1 IMO、データマイニング、機械学習は非常に密接に関連する用語です。ある意味では、機械学習技術はデータマイニングで使用されます。私は定期的にこれらの用語を互換性があると考えており、異なる限り、通常は一緒に使用します。「The Two Cultures」の論文だけでなく、私の最初の質問の他のスレッドにも目を通すことをお勧めします。

NB2「データマイニング」という用語は、概念的に理解せずに、データに対して何らかのアルゴリズムを緩めることを意味するために口語的に使用される場合、否定的な意味合いを持つことがあります。意味は、データマイニングが誤った結果と過剰適合につながるということです。結果として非専門家と話すときは、通常、この用語の使用を避け、代わりに機械学習または統計学習を同義語として使用します。


NB2について-データマイニングの意味合いについてあなたはまったく正しいと思いますが、機械学習とは関係ありませんでした。私のトレーニングは、過剰適合、スプリアス、チャンスを活かすという問題を常に強調していたので、私はDMに懐疑的でした。ありがとう。
ブレット

1
ML / DMの区別に関する私の唯一の言は、DMのほうが広いと思うことです。たとえば、OLAPおよび関連ツールにはマイニングテクノロジが含まれています。しかし、これらは機械学習ではなく、コンピューターサイエンスのデータベース側からのものです。データマイニングの「意味」を形作る上でのコマースの役割は無視するのが困難です。必要に応じて、管理科学、オペレーションズリサーチ、機械学習、統計の要素を取り入れます。また、薄っぺらなものの印象を与えますが、それは通常、実践者ではなく純粋主義者にとっての問題です。
アルス

@ars:同意します。「機械学習技術はデータマイニングで使用されます」と言って少し言いました(つまり、データマイニングはスーパーセットです)。商用アプリケーションについてのあなたのポイントもスポットです。現在、商用アプリケーションの誰かが自分の仕事を何か他のものと呼ぶかもしれませんが(例:「データサイエンス」)。
シェーン

そうです、実際にあなたが書いたものとり合うのではなく、違いを肉付けしようとしていると言ったはずです。誤った方向付けについておApび申し上げます。「データサイエンス」の採用など、時代や用語の変化に関する良い点。ゲルマンの本の1つは、「統計はデータの科学です」のようなものから始まりませんか?統計学者から「彼らは」盗んでいます。再び。:)
アルス

8

データマイニングは、記述的または予測的のいずれかに分類されます。記述的データマイニングとは、大量のデータセットを検索し、データ内の予期しない構造または関係、パターン、傾向、クラスター、および外れ値の場所を発見することです。一方、予測は、回帰、分類、パターン認識、または機械学習タスクのモデルと手順を構築し、それらのモデルと手順の最新データに適用した場合の予測精度を評価することです。

高次元データのパターンまたは構造の検索に使用されるメカニズムは、手動または自動の場合があります。検索には、データベース管理システムへのインタラクティブなクエリが必要な場合があります。または、視覚化ソフトウェアを使用してデータの異常を見つける必要がある場合があります。機械学習の用語では、記述的データマイニングは教師なし学習として知られていますが、予測的データマイニングは教師あり学習として知られています。

データマイニングで使用される方法のほとんどは、統計および機械学習で開発された方法に関連しています。これらの方法の中で最も重要なのは、回帰、分類、クラスタリング、視覚化の一般的なトピックです。データセットのサイズが非常に大きいため、データマイニングの多くのアプリケーションは、次元削減手法(変数選択など)と、高次元データが低次元超平面にあると疑われる状況に焦点を当てています。最近の注目は、非線形表面または多様体上にある高次元データを識別する方法に向けられています。

そこデータマイニングにおける状況もあり、統計的推論は、我々が持っているとき、前者が発生します。どちらかが意味を持たないか、疑わしい妥当性のある-その古典的な意味で- 全人口の答えを検索するには、データ・セットがある場合、後者が発生します大規模な母集団から抽出されたランダムなサンプルではなく、「便利な」サンプル。データが時間を通じて収集される場合(小売取引、株式市場取引、患者記録、気象記録など)、サンプリングも意味がない場合があります。観測値の時間順序は、データを生成する現象を理解するために重要であり、観測値が高度に相関している可能性がある場合、観測値を独立したものとして扱うことは、偏った結果をもたらします。

データマイニングの中心的なコンポーネントは、統計理論と方法に加えて、計算と計算の効率、自動データ処理、動的でインタラクティブなデータ視覚化技術、アルゴリズム開発です。

データマイニングで最も重要な問題の1つは、スケーラビリティの計算上の問題です。標準の探索的および確認的統計手法を計算するために開発されたアルゴリズムは、小規模および中規模のデータセットに適用した場合に高速で計算効率が高くなるように設計されました。しかし、これらのアルゴリズムのほとんどは、巨大なデータセットを処理するという課題に対応していないことが示されています。データセットが大きくなると、既存のアルゴリズムの多くが劇的にスローダウンする傾向を示します(または、停止することさえあります)。


8

データマイニングは統計であり、若干の違いがあります。統計学者はちょっと変だから、ブランド変更統計と考えることができます。

多くの場合、計算統計に関連付けられています。つまり、コンピュータでできることだけです。

データマイナーは、多変量統計のかなりの部分を盗み、それを独自のものと呼びました。1990年代の多変量ブックの目次を確認し、新しいデータマイニングブックと比較します。似ている。

統計は、仮説のテストとモデル構築に関連付けられていますが、データマイニングは、理解可能なモデルがあるかどうかに関係なく、予測と分類に関連付けられています。


1
重複は何ですか?明らかなものは見当たりません。
ロブハインドマン


1
OK。機械学習ではなく、データマイニングを探していました。重複していると思われる場合は、投票してください。
ロブハインドマン

うーん、だからデータマイニング==機械学習?
アルス

1
1)comp statの区別がありません。コンピュータを必要としない統計学者が行うことはあまりありません。反復解などの計算集約的な手順を意味すると思いますか?しかし、これらはデータマイニングではない現代の統計作業でも一般的です。2)私自身の(統計)作業では、問題に応じて、説明と予測のためのモデル構築に興味がありました。データマイニングは考慮していませんでした。3)現代のDMは統計の特定のアプリケーションであるという結論が残っていますが、これは素晴らしい結論だと思います。
ブレット

6

以前に、データマイニングと心理学を比較するいくつかの観察を行った投稿を書きました。これらの観察結果は、あなたが特定している違いのいくつかを捉えていると思います。

  1. 「データマイニングは、潜在変数の因果システムを理解するよりも、観測変数を使用した予測に関心があるようです。心理学は、通常、潜在変数の因果システムに関心があります。
  2. 通常、データマイニングには、データマイニングの目的以外の目的で収集された大規模なデータセット(10,000 +行など)が含まれます。心理的データセットは通常小さく(たとえば、1,000行または100行未満)、調査の質問を調査するために明示的に収集されます。
  3. 通常、心理分析には特定のモデルのテストが含まれます。自動化されたモデル開発アプローチは、理論的には面白くない傾向があります。」- データマイニングとR

ポイント2と3は有用なコメントであり、2つのSAとDMの違いとして見ているものと一致していると思います。あなたの最初の点についてはよくわかりません。因果関係についての理解を深めることに興味のある統計作業をしました。ただし、統計作業を行い、既知の関係を取得し、予測のみを目的として「データマイニング」の他の機能を共有しないモデルを開発しました。
ブレット

4

あなたが行った区別は、データマイニングと統計分析の違いに本当に関係しているとは思いません。探索的分析とモデリング予測アプローチの違いについて話している。

統計の伝統はすべてのステップで構築されていると思います:探索的分析、その後モデリング、推定、テスト、予測/延期。統計学者は、データがどのように見えるかを調べるために探索的分析を行います(Rの下の関数の要約!)データマイニングは構造化されておらず、探索的分析で特定できると思います。ただし、推定、予測、分類などの統計からの手法を使用しています。


私はそれを買うことができます。データマイニングは、統計的手法のより探索的な応用です。しかし、私は区別が十分だとは思わない。設計された実験からの100の観測セットでEDAを実行しているとき、誰もそのデータマイニングを呼び出すとは思わないでしょうか?
ブレット
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.