タグ付けされた質問 「open-source」

30
公開されているデータセット
データサイエンスの一般的な問題の1つは、さまざまなソースからデータを何らかの形で(半構造化された)形式で収集し、さまざまなソースのメトリックを組み合わせて高レベルの分析を行うことです。他の人の努力、特にこのサイトの他の質問を見ると、この分野の多くの人がやや反復的な仕事をしているようです。たとえば、ツイート、Facebookの投稿、Wikipediaの記事などを分析することは、多くのビッグデータの問題の一部です。 これらのデータセットの一部は、プロバイダーサイトによって提供されるパブリックAPIを使用してアクセスできますが、通常、これらのAPIからいくつかの貴重な情報またはメトリックが欠落しているため、誰もが同じ分析を何度も繰り返す必要があります。たとえば、ユーザーのクラスタリングはさまざまなユースケースと機能の選択に依存する場合がありますが、Twitter / Facebookユーザーの基本的なクラスタリングは、APIによって提供されず、独立したデータセットで公開されていない多くのビッグデータアプリケーションで役立ちます。 他のビッグデータの問題の解決に再利用できる貴重なデータセットを含むインデックスまたは公開されているデータセットホスティングサイトはありますか?データサイエンスのためのGitHub(またはサイト/パブリックデータセットのグループ、または少なくとも包括的なリスト)のようなものを意味します。そうでない場合、そのようなデータサイエンスのプラットフォームがない理由は何ですか?データの商業的価値、データセットを頻繁に更新する必要がある、...?データサイエンティスト向けに考案されたデータセットを共有するためのオープンソースモデルはありませんか?

7
一般公開されているソーシャルネットワークデータセット/ API
一般公開されているデータセットのすばらしいリストの拡張として、公開されているソーシャルネットワークデータセット/クロールAPIのリストがあるかどうかを知りたいです。データセット/ APIへのリンクと一緒に、利用可能なデータの特性が追加されていれば、非常に便利です。そのような情報は次のとおりである必要があります。 ソーシャルネットワークの名前。 提供するユーザー情報の種類(投稿、プロフィール、友情ネットワークなど); APIを介してコンテンツのクロールを許可するかどうか(およびレート:10 / min、1k / month、...); データセット全体のスナップショットを単に提供するかどうか。 追加する提案やさらなる特性は大歓迎です。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.