データマイニングは、記述的または予測的のいずれかに分類されます。記述的データマイニングとは、大量のデータセットを検索し、データ内の予期しない構造または関係、パターン、傾向、クラスター、および外れ値の場所を発見することです。一方、予測は、回帰、分類、パターン認識、または機械学習タスクのモデルと手順を構築し、それらのモデルと手順の最新データに適用した場合の予測精度を評価することです。
高次元データのパターンまたは構造の検索に使用されるメカニズムは、手動または自動の場合があります。検索には、データベース管理システムへのインタラクティブなクエリが必要な場合があります。または、視覚化ソフトウェアを使用してデータの異常を見つける必要がある場合があります。機械学習の用語では、記述的データマイニングは教師なし学習として知られていますが、予測的データマイニングは教師あり学習として知られています。
データマイニングで使用される方法のほとんどは、統計および機械学習で開発された方法に関連しています。これらの方法の中で最も重要なのは、回帰、分類、クラスタリング、視覚化の一般的なトピックです。データセットのサイズが非常に大きいため、データマイニングの多くのアプリケーションは、次元削減手法(変数選択など)と、高次元データが低次元超平面にあると疑われる状況に焦点を当てています。最近の注目は、非線形表面または多様体上にある高次元データを識別する方法に向けられています。
そこデータマイニングにおける状況もあり、統計的推論は、我々が持っているとき、前者が発生します。どちらかが意味を持たないか、疑わしい妥当性のある-その古典的な意味で- 全人口の答えを検索するには、データ・セットがある場合、後者が発生します大規模な母集団から抽出されたランダムなサンプルではなく、「便利な」サンプル。データが時間を通じて収集される場合(小売取引、株式市場取引、患者記録、気象記録など)、サンプリングも意味がない場合があります。観測値の時間順序は、データを生成する現象を理解するために重要であり、観測値が高度に相関している可能性がある場合、観測値を独立したものとして扱うことは、偏った結果をもたらします。
データマイニングの中心的なコンポーネントは、統計理論と方法に加えて、計算と計算の効率、自動データ処理、動的でインタラクティブなデータ視覚化技術、アルゴリズム開発です。
データマイニングで最も重要な問題の1つは、スケーラビリティの計算上の問題です。標準の探索的および確認的統計手法を計算するために開発されたアルゴリズムは、小規模および中規模のデータセットに適用した場合に高速で計算効率が高くなるように設計されました。しかし、これらのアルゴリズムのほとんどは、巨大なデータセットを処理するという課題に対応していないことが示されています。データセットが大きくなると、既存のアルゴリズムの多くが劇的にスローダウンする傾向を示します(または、停止することさえあります)。