回答:
まず、これを注意深く確認してください。簡単なデータセットとレビューするいくつかの論文が見つかります。
しかしあなたは、単純な学習プロジェクトを開始したいと私は(明らかにされない論文を通過しないようにお勧めします基本的な)が、それほど難しいことではない、独自のベイズ学習者を構築してみてください。
私は個人的に、Andrew Mooreの無料で利用できる確率的グラフィカルモデルに関する講義スライドを提案します。これらのスライドから、簡単に段階的に学習できます。
詳細なヘルプが必要な場合は、この回答にコメントしてください。喜んでお手伝いします:)
ベイジアン学習をお楽しみください!
Andrew NgのCourseraでの機械学習コース(ある場合には、Courseraのフラグシップコース)では、プログラマーがサポートベクターマシンを対象に演習を行って、スパム分類を行っていました。講義は素晴らしく、有名で、一見の価値があります。
彼からこの投稿されたコースもあります:
これは実際には、多くの人々や企業が取り組んできた本当に詳細な問題です。ここにいくつかの基本があります:
これで、データは有用なスペースにありますが、非常に高次元のスペースにあります。どういうわけかこの次元を減らすことをお勧めしますが、それは別のスレッドの全体の主題です。
最後に、いくつかのアルゴリズムをトレーニングして、サンプルを分類することができます(これが他の答えです)。ニューラルネットワーク、アダブースト、SVM、単純ベイズ、グラフィック分類モデルなど、優れた選択肢がたくさんあります。これらの多くは、scikit-learnにも実装されています。
しかし、最良のアルゴリズムは、この問題が実際には転移学習問題であるという事実を利用しています。つまり、トレーニングデータとテストデータの配布元は完全に同じではない可能性があります。ある人がスパムであると考えるものの種類は、別の人がスパムであると考えるものの種類とは異なる場合があるためです。
d
変数を思いつきますか?科学者が選んだ固定数ですか?