「データサイエンス」を探っていきたい。この用語は私には少しあいまいなようですが、私はそれが必要だと思います:
- (従来の統計ではなく)機械学習。
- クラスターで分析を実行する必要がある十分に大きいデータセット。
データサイエンスの分野を探索するために使用できる、プログラミングの知識がある統計学者がアクセスできる、優れたデータセットと問題は何ですか?
これを可能な限り狭く保つために、理想的には、リンクを開き、よく使用されるデータセットと問題の例を開きたいと思います。
「データサイエンス」を探っていきたい。この用語は私には少しあいまいなようですが、私はそれが必要だと思います:
データサイエンスの分野を探索するために使用できる、プログラミングの知識がある統計学者がアクセスできる、優れたデータセットと問題は何ですか?
これを可能な限り狭く保つために、理想的には、リンクを開き、よく使用されるデータセットと問題の例を開きたいと思います。
回答:
kaggle.comにアクセスしてください。それはあなたを長い間忙しくさせます。オープンデータについては、UC Irvine Machine Learning Repositoryがあります。実際、これに特化したStackexchangeサイト全体があります。あっち見て。
あなたのコンピュータサイエンスの修士ですか?統計学?
「データサイエンス」はあなたの論文の中心になるのでしょうか?または副題?
私はあなたの統計を仮定し、あなたはあなたの論文を「データサイエンス」の問題に集中したいと思います。もしそうなら、私は粒度に逆らって、データセットやMLメソッドから始めるべきではないことを提案します。代わりに、よく理解されていない興味深い研究問題、またはMLメソッドがまだ成功していないか、競合するMLメソッドが多数あるが他より優れていると思われる問題を探す必要があります。
次のデータソースを検討してください:Stanford Large Network Dataset Collection。これらのデータセットの1つを選択して問題のステートメントを作成し、MLメソッドのリストを実行することもできますが、そのアプローチでは、データサイエンスについての詳細はほとんどわかりません。私の意見では、非常に優れた修士論文につながる。
代わりに、あなたはこれを行うかもしれません:MLをいくつかの特定のカテゴリで使用するすべての研究論文を探してください-例:コラボレーションネットワーク(別名共著)。それぞれの論文を読むときは、各MLメソッドで達成できたこと、および対処できなかったことを見つけてください。特に、「将来の研究」に対する提案を探してください。
多分それらはすべて同じメソッドを使用しますが、競合するMLメソッドを試したことはありません。または、結果が十分に検証されていないか、データセットが小さいか、または調査の質問と仮説が単純化されているか、制限されている可能性があります。
最も重要なのは、この研究分野がどこに向かっているのかを見つけ出すことです。なぜ彼らはこれをするのに面倒なのですか?それについて何が重要ですか?どこで、なぜ彼らは困難に直面していますか?