統計学修士論文のためのデータサイエンス指向のデータセット/研究の質問


11

「データサイエンス」を探っていきたい。この用語は私には少しあいまいなようですが、私はそれが必要だと思います:

  1. (従来の統計ではなく)機械学習。
  2. クラスターで分析を実行する必要がある十分に大きいデータセット。

データサイエンスの分野を探索するために使用できる、プログラミングの知識がある統計学者がアクセスできる、優れたデータセットと問題は何ですか?

これを可能な限り狭く保つために、理想的には、リンクを開き、よく使用されるデータセットと問題の例を開きたいと思います。

回答:



5

日光財団は開放し、政府のデータの非党派分析を奨励に焦点を当てている組織です。

比較のために使用できる大量の分析が世の中に出回っており、さまざまなトピックがあります。

データにアクセスするためのツールAPIを提供し、data.govなどの場所でデータを利用できるようにするためのプッシュを支援しています。

興味深いプロジェクトの1つがInfluence Explorerです。ここでソースデータを取得できるだけでなく、リアルタイムデータにアクセスできます。

また、人気の高い質問の1つもご覧ください。

公開されているデータセット


5

あなたのコンピュータサイエンスの修士ですか?統計学?

「データサイエンス」はあなたの論文の中心になるのでしょうか?または副題?

私はあなたの統計を仮定し、あなたはあなたの論文を「データサイエンス」の問題に集中したいと思います。もしそうなら、私は粒度に逆らって、データセットやMLメソッドから始めるべきではないことを提案します。代わりに、よく理解されていない興味深い研究問題、またはMLメソッドがまだ成功していないか、競合するMLメソッドが多数あるが他より優れていると思われる問題を探す必要があります。

次のデータソースを検討してください:Stanford Large Network Dataset Collection。これらのデータセットの1つを選択して問題のステートメントを作成し、MLメソッドのリストを実行することもできます、そのアプローチでは、データサイエンスについての詳細はほとんどわかりません。私の意見では、非常に優れた修士論文につながる。

代わりに、あなたはこれを行うかもしれません:MLをいくつかの特定のカテゴリで使用するすべての研究論文を探してください-例:コラボレーションネットワーク(別名共著)。それぞれの論文を読むとき、各MLメソッドで達成できたこと、および対処できなかったことを見つけてください。特に、「将来の研究」に対する提案を探してください。

多分それらはすべて同じメソッドを使用しますが、競合するMLメソッドを試したことはありません。または、結果が十分に検証されていないか、データセットが小さいか、または調査の質問と仮説が単純化されているか、制限されている可能性があります。

最も重要なのは、この研究分野がどこに向かっているのかを見つけ出すことです。なぜ彼らはこれをするのに面倒なのですか?それについて何が重要ですか?どこで、なぜ彼らは困難に直面していますか?


これはかなり良い考えです。マスターズは統計にあります。
user3279453 14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.