データマイニングのような統計では、データと目標から始めます。統計では、推論、つまりサンプルを使用して母集団レベルの質問に答えることに多くの焦点があります。データマイニングの焦点は通常予測です。テストデータを予測するには、サンプル(トレーニングデータ)からモデルを作成します。
統計のプロセスは次のとおりです。
要約とグラフを使用してデータを探索する-統計学者がどのようにデータ駆動型であるかに応じて、すべての角度からデータを見ている人もいますし、他の人(特に社会科学者)はレンズのレンズを通してデータを見ている人もいます。関心のある質問(例:特に関心のある変数をプロットし、他の変数はプロットしない)
適切な統計モデルファミリー(たとえば、連続Yの線形回帰、バイナリYのロジスティック回帰、またはカウントデータのポアソン)を選択し、モデル選択を実行します。
最終的なモデルを推定する
モデルの仮定をテストして、それらが合理的に満たされていることを確認します(データマイニングの予測精度のテストとは異なります)
推論にモデルを使用する-これは、データマイニングとは異なる主なステップです。「p-value」という言葉がここに到着します...
基本的な統計の教科書を見てください。探索的データ分析の章に続いて、いくつかの分布(合理的な近似モデルの選択に役立ちます)、次に推論(信頼区間と仮説検定)、回帰モデルの章があります。
古典的な統計プロセスについて説明しました。しかし、私には多くの問題があります。推論への焦点は完全にフィールドを支配してきましたが、予測(これは非常に重要で有用です)はほとんど無視されています。さらに、社会科学者が推論のために統計をどのように使用するかを見ると、彼らはまったく異なる方法でそれを使用していることがわかります!これについて詳しくは、こちらをご覧ください。