統計モデリングを始めるためのヒントとコツ?


10

私はデータマイニングの分野で働いており、統計に関する正式な教育はほとんど受けていません。最近、学習とマイニングのためのベイズのパラダイムに焦点を当てた多くの仕事を読んでいますが、それは非常に興味深いと思います。

私の質問は(いくつかの部分で)、問題があり、統計モデルを構築することができる一般的なフレームワークがあるかどうかです。基礎となるプロセスをモデル化するデータセットが与えられたときに最初に行うことは何ですか?このプロセスを説明する良い本やチュートリアルはありますか、それとも経験の問題ですか?モデルを構築するとき、あなたの心の最前線で推論ですか、それとも計算にどのように使用するかについて心配する前に、最初にデータを記述することを目指していますか?

どんな洞察もいただければ幸いです!ありがとう。


4
こんにちはニック-CVへようこそ。あなたの質問は非常に広いです。細かい質問に分ければ、良い答えが得られるかもしれません(一度行うと、それらのいくつかがすでにここで回答されていることがわかります)。ただし、最低でも、質問を「コミュニティウィキ」としてマークする必要があります。これは基本的に、ここでの通常の競合する回答形式の代わりに、すべての回答が全体としてThe Answerと見なされることを意味します。
Matt Parker

1
@Matt CWチェックボックスが質問に表示されなくなりました。modは必要に応じて質問をCWとしてマークする必要があります。

@ニック..私も新しいです。一般的なこと、そして最も重要なことは、出力変数をどのように記述したいかということです。継続的ですか、それはバイナリですか?一日の終わりに、出力変数を観察/モデル化したいからです。次に、必要な変数をモデル化する方法は何だと思いますか。その後、変数が2分である場合、手順はロジットモデルです。次の考慮事項は、データ、その重要な要素、およびさまざまな問題が発生します。これが理にかなっていることを願っています。
ayush biyani 2010年

回答:


6

データマイニングのような統計では、データと目標から始めます。統計では、推論、つまりサンプルを使用して母集団レベルの質問に答えることに多くの焦点があります。データマイニングの焦点は通常予測です。テストデータを予測するには、サンプル(トレーニングデータ)からモデルを作成します。

統計のプロセスは次のとおりです。

  1. 要約とグラフを使用してデータを探索する-統計学者がどのようにデータ駆動型であるかに応じて、すべての角度からデータを見ている人もいますし、他の人(特に社会科学者)はレンズのレンズを通してデータを見ている人もいます。関心のある質問(例:特に関心のある変数をプロットし、他の変数はプロットしない)

    1. 適切な統計モデルファミリー(たとえば、連続Yの線形回帰、バイナリYのロジスティック回帰、またはカウントデータのポアソン)を選択し、モデル選択を実行します。

    2. 最終的なモデルを推定する

    3. モデルの仮定をテストして、それらが合理的に満たされていることを確認します(データマイニングの予測精度のテストとは異なります)

    4. 推論にモデルを使用する-これは、データマイニングとは異なる主なステップです。「p-value」という言葉がここに到着します...

基本的な統計の教科書を見てください。探索的データ分析の章に続いて、いくつかの分布(合理的な近似モデルの選択に役立ちます)、次に推論(信頼区間と仮説検定)、回帰モデルの章があります。

古典的な統計プロセスについて説明しました。しかし、私には多くの問題があります。推論への焦点は完全にフィールドを支配してきましたが、予測(これは非常に重要で有用です)はほとんど無視されています。さらに、社会科学者が推論のために統計をどのように使用するかを見ると、彼らはまったく異なる方法でそれを使用していることがわかります!これについて詳しくは、こちらをご覧ください。


2

本に関して言えば、ハスティー、ティブシラニ、フリードマンの「統計的学習の要素」は非常に優れています。

完全な本は著者のWebサイトで入手できます。あなたがそれがあなたのニーズにまったく適しているかどうかを確認するために見てみるとよいでしょう。



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.