データサイエンスの一般的な問題の1つは、さまざまなソースからデータを何らかの形で(半構造化された)形式で収集し、さまざまなソースのメトリックを組み合わせて高レベルの分析を行うことです。他の人の努力、特にこのサイトの他の質問を見ると、この分野の多くの人がやや反復的な仕事をしているようです。たとえば、ツイート、Facebookの投稿、Wikipediaの記事などを分析することは、多くのビッグデータの問題の一部です。
これらのデータセットの一部は、プロバイダーサイトによって提供されるパブリックAPIを使用してアクセスできますが、通常、これらのAPIからいくつかの貴重な情報またはメトリックが欠落しているため、誰もが同じ分析を何度も繰り返す必要があります。たとえば、ユーザーのクラスタリングはさまざまなユースケースと機能の選択に依存する場合がありますが、Twitter / Facebookユーザーの基本的なクラスタリングは、APIによって提供されず、独立したデータセットで公開されていない多くのビッグデータアプリケーションで役立ちます。
他のビッグデータの問題の解決に再利用できる貴重なデータセットを含むインデックスまたは公開されているデータセットホスティングサイトはありますか?データサイエンスのためのGitHub(またはサイト/パブリックデータセットのグループ、または少なくとも包括的なリスト)のようなものを意味します。そうでない場合、そのようなデータサイエンスのプラットフォームがない理由は何ですか?データの商業的価値、データセットを頻繁に更新する必要がある、...?データサイエンティスト向けに考案されたデータセットを共有するためのオープンソースモデルはありませんか?