今学期には機械学習コースがあり、教授は実世界の問題を見つけて、クラスで導入された機械学習方法の1つでそれを解決するように依頼しました。
私はstackoverflowとstackexchangeのファンの1人であり、これらのウェブサイトのデータベースダンプが素晴らしいので一般に提供されていることを知っています!これらのデータベースに関する優れた機械学習の課題を見つけて解決できることを願っています。
私の考え
私が思いついたアイデアの1つは、質問本文に入力された単語に基づいて質問のタグを予測することです。ベイジアンネットワークは質問のタグを学習するのに適したツールだと思いますが、さらに調査が必要です。とにかく、ユーザーが質問の入力を終えた段階を学習した後、いくつかのタグが彼に提案されるべきです。
教えてください:
MLに関する2つの質問について、統計コミュニティに経験豊富な人々に尋ねたいと思います。
タグの提案は少なくとも解決する可能性がある問題だと思いますか?それについて何かアドバイスはありますか?stackexchangeはまだそのような機能を実装していないので、少し心配です。
stackexchangeデータベースに基づくMLプロジェクトのその他の/より良いアイデアはありますか?stackexchangeデータベースから学ぶべきものを見つけるのは本当に難しいと思います。
データベースエラーに関する考慮事項: データベースは巨大で、多くのインスタンスを持っていますが、完全ではなく、エラーが発生しやすいことを指摘したいと思います。明白なのは、信頼できないユーザーの年齢です。質問に対して選択されたタグでさえ、100%正確ではありません。とにかく、問題を選択する際にデータの正確性の割合を考慮する必要があります。
問題自体についての考察:私のプロジェクトはdata-mining
このようなものであってはなりません。それは、実世界でのMLメソッドのアプリケーションであるべきです。