データサイエンスはデータマイニングと同じですか?


22

このフォーラムで議論されるデータサイエンスには、大規模なデータが分析されるいくつかの同義語または少なくとも関連分野があると確信しています。

私の特定の質問は、データマイニングに関するものです。数年前にデータマイニングの大学院クラスを受講しました。データサイエンスとデータマイニングの違いは何ですか?特に、データマイニングに習熟するためには、さらに何を検討する必要がありますか?


質問の2番目の部分については、meta.datascience.stackexchange.com / questions / 5 / …で議論することを提案しました。それがどのように受け取られるかによって、習熟度の懸念に答えられるか範囲内に収まるかが決まります。
クレイトン

回答:


25

@statsRusは、別の質問/datascience/1/what-c​​haracterises-the-difference-between-data-science-and-statisticsであなたの答えの基礎を築き始めます

  • データ収集:ウェブスクレイピングとオンライン調査
  • データ操作:乱雑なデータを記録し直し、言語およびソーシャルネットワークデータから意味を抽出する
  • データスケール:非常に大きなデータセットでの作業
  • データマイニング:アルゴリズム手法に重点を置いた、大規模で複雑なデータセットのパターンを見つける
  • データ通信:視覚化により「機械で読み取り可能な」データを「人間が読み取り可能な」情報に変換

定義

は、データサイエンティストのツールキット内の1つのアイテム(またはスキルとアプリケーションのセット)として見ることができます。私は、彼がマイニングの定義を、ある種の業界固有の専門用語のコレクションから分離する方法が好きです。

ただし、データマイニングは、米国英語の口語定義でのデータ収集と同義語になると思います。

熟練するためにどこに行くべきか? この質問は現在述べられているように広すぎて、主に意見に基づく回答を受け取ると思います。質問を絞り込むことができれば、おそらくあなたが尋ねているものを見やすくなるかもしれません。


11

@Claytonが投稿したものは、それらの用語、およびデータサイエンティストのツールの1つである「データマイニング」にとって、私には正しいように思えます。ただし、「データコレクション」という用語は実際には使用していないため、「データマイニング」と同義語ではありません。

あなたの質問に対する私自身の答え:いいえ、用語は同じではありません。この分野では定義がゆるいかもしれませんが、これらの用語が同じ意味で使用されているのを見たことはありません。私の仕事では、時々それらを使用して、目標または方法論を区別します。私たちにとって、とは仮説をテストすることであり、通常、データはその目的のためだけに収集されています。とは、既存のデータを選別し、構造を探し、おそらく仮説を生成することです。データマイニングは仮説から始めることができますが、多くの場合非常に弱いか一般的であり、自信を持って解決することは困難です。(十分に長く掘ると、何かが見つかります、黄鉄鉱であることがわかります。)

ただし、「データマイニング」を含めるために、より広い用語として「データサイエンス」も使用しています。また、「データモデリング」についても説明します。これは、データやその他の知識や目的に基づいて、対象システムのモデルを見つけることです。時にはそれは実際のシステムを説明する数学を見つけようとすることを意味し、時には目的に十分な予測モデルを見つけることを意味します。


8

私の答えはノーでしょう。データマイニングは、データサイエンスのさまざまな分野の1つであると考えています。データマイニングは、質問に答えるのではなく、結果を出すことを主に考慮されます。データ科学者が最終結果に到達できるように複雑な問題を解決しようとするデータサイエンスと比較すると、「何か新しいものを検出する」と呼ばれることがよくあります。ただし、どちらの用語にも多くの共通点があります。たとえば、。影響を受ける植物を見つけることを目的とする農地がある場合。ここでは、空間データマイニングがこの仕事を行う上で重要な役割を果たします。土地だけでなく、彼らが影響を受ける範囲.......これは、データサイエンスでは不可能なことです。


あなたの答えはとてもいいですし、データマイニングが結果解決して到達しようとするよりも何か新しいもの検出することに関連しているという点を強調するために、少し例を追加することもいいでしょう。
ルーベンス14年

6

データマイニングとデータサイエンスの間には多くの重複があります。データマイニングの役割を持つ人々は、データ収集と、フィルタリングされていない、組織化されていない、ほとんどが生/野生のデータセットからの特徴の抽出に関心があると思います。一部の非常に重要なデータは、実装の問題ではなく、外部のアーティファクトがある可能性があるため、抽出が困難な場合があります。

例えば。70年代の書面による税務申告書の財務データを調べて、人が自動車保険でもっと節約できるかどうかを調べるためにスキャンして機械で読み取った人が必要だった場合。データマイナーは取得する人です。

ブラジルのツイートにおけるナイキのTwitterプロファイルの影響を調べ、プロファイルから重要な肯定的な特徴を特定する誰かが必要な場合、データサイエンティストを探します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.