公開されているデータセット


168

データサイエンスの一般的な問題の1つは、さまざまなソースからデータを何らかの形で(半構造化された)形式で収集し、さまざまなソースのメトリックを組み合わせて高レベルの分析を行うことです。他の人の努力、特にこのサイトの他の質問を見ると、この分野の多くの人がやや反復的な仕事をしているようです。たとえば、ツイート、Facebookの投稿、Wikipediaの記事などを分析することは、多くのビッグデータの問題の一部です。

これらのデータセットの一部は、プロバイダーサイトによって提供されるパブリックAPIを使用してアクセスできますが、通常、これらのAPIからいくつかの貴重な情報またはメトリックが欠落しているため、誰もが同じ分析を何度も繰り返す必要があります。たとえば、ユーザーのクラスタリングはさまざまなユースケースと機能の選択に依存する場合がありますが、Twitter / Facebookユーザーの基本的なクラスタリングは、APIによって提供されず、独立したデータセットで公開されていない多くのビッグデータアプリケーションで役立ちます。

他のビッグデータの問題の解決に再利用できる貴重なデータセットを含むインデックスまたは公開されているデータセットホスティングサイトはありますか?データサイエンスのためのGitHub(またはサイト/パブリックデータセットのグループ、または少なくとも包括的なリスト)のようなものを意味します。そうでない場合、そのようなデータサイエンスのプラットフォームがない理由は何ですか?データの商業的価値、データセットを頻繁に更新する必要がある、...?データサイエンティスト向けに考案されたデータセットを共有するためのオープンソースモデルはありませんか?


18
この質問は、専用のopendata.SEにより適している場合があります。とは言うものの、「データのGit」になることを目指しているdatに手を出します。
ojdo

2
@ojdoおかげで、以前にopendata.SEについて聞いたことがありません。また、この興味深い(そして非常によく似た)質問もありました。
アミールアリアクバリ


一般的なビジネスインテリジェンスアプリケーション用の優れた無料の包括的なデータセットは見つかりませんでした。小売業のためのMicrosoftのContoso BIデモデータセットオフィシャルマイクロソフトからセンターのダウンロードダウンロードは、いくつかのMicrosoft製品と連携(参照のSharePointおよびその他のビジネスソフトウェアにAndyGettを)が、私はそれのいずれかのプレーンなSQLまたはCSVダンプが表示されない、また任意のライセンス情報。
nealmcb

1
Open Data Stack Exchangeに参加しましたか?opendata.stackexchange.com
sss4r

回答:


88

実際、公的に利用可能なデータセットの非常に合理的なリストがあり、さまざまな企業/ソースによってサポートされています。

それらのいくつかを以下に示します。

さて、あなたの質問に関する2つの考慮事項。1つ目は、データベース共有のポリシーに関するものです。個人的な経験から、プライバシーの制限(ソーシャルネットワーク情報など)や政府の情報(医療システムデータベースなど)の関係で、公開できないデータベースがいくつかあります。

別のポイントは、データセットの使用法/アプリケーションに関するものです。一部のベースはアプリケーションのニーズに合わせて再処理できますが、目的ごとにデータセットを整理しておくと便利です分類は、ソーシャルグラフ分析、アイテムセットマイニング、分類、およびがあるかもしれない他の研究分野の多くを関与させるべきです。


64

37

公開されているデータセットは数多くありますが、多くの人が見落としがちなのはdata.govです。前述のように、Freebaseは素晴らしいので、@ Rubensによって投稿されたすべての例も同様です。


35

Freebaseは、多くの興味深いトピックにまたがる無料のコミュニティ主導型データベースであり、機械可読形式で約25億の事実が含まれています。データクエリを実行するための優れたAPIもあります。

以下に、オープンデータセットの別のコンパイル済みリストを示します。http//www.datapure.co/open-data-sets


Freebaseは閉鎖され、そのデータベースは間もなくWikidataに移動します。
cynddl


25

特に時系列データの場合、Quandlは優れたリソースであり、(ほとんど)クリーンな時系列の簡単に参照可能なディレクトリです。

彼らの最もクールな機能の1つは、オープンデータ株価です。つまり、ウィキスタイルで編集できる財務データであり、ライセンスの制約を受けません。


20

Enigmaは、公開されている利用可能なデータセットのリポジトリです。無料プランでは、1か月あたり1万件のAPIコールを使用して、公開データ検索を提供しています。すべてのパブリックデータベースがリストされているわけではありませんが、一般的な場合にはリストで十分です。

私はそれを学術研究に使用し、多くの時間を節約しました。


もう1つの興味深いデータソースは、@ unitedstatesプロジェクトです。これには、米国(議会の議員、地理的形状など)に関するデータとそれらを収集するツールが含まれています。


18

The Open Data Censusを指摘したいと思います。これは、世界中のオープンデータ支持者や専門家からの貢献に基づいたOpen Knowledge Foundationのイニシアチブです。

オープンデータ国勢調査の価値は、オープンでコミュニティ主導の体系的な取り組みであり、オープンデータセットのデータベースを国全体、場合によっては米国のように都市レベルでグローバルに収集および更新します。

また、関心のある特定の領域でさまざまな国や都市を比較する機会を提供します。


18

The Guardianが提供する別のリソース、British Dailyも彼らのWebサイトにあります。Guardian Datablogによって公開されたデータセットはすべてホストされています。フットボールプレミアリーグクラブのアカウントに関連するデータセット、英国のインフレ率とGDPの詳細、グラミー賞のデータなど。

その他のリソース。一部のデータセットはR形式であるか、データをRに直接インポートするためのRコンマが存在します。


17

カスタムGoogle検索

データセットにカスタムGoogle検索を使用できます。

Googleカスタム検索:データセット

この質問に記載されているすべてを含む、230個のソースとデータセットのメタソースが含まれています。検索行に「-.gov」または「-site.com」を追加して、結果から.govおよびその他のWebサイトを除外してください。他のGoogle検索演算子が機能します。

どのWebサイトを追加するべきかアイデアがあれば、遠慮なく私に連絡してください。

IOGDS

次のサービスは、1,000,000を超えるパブリックデータセットを分類します。

IOGDS:国際公開政府データセット検索


指定したカスタム検索リンクのパラメーターは何ですか?ウェブサイト、キーワードなどのリストを検索しますか?
アミールアリアクバリ14

@AmirAliAkbari Data.gov、Quandl、その他の主要なデータウェアハウスなどのソースを検索します。
アントンタラセンコ14

16

遅い答えですが、ここに100以上の興味深いデータセット listリストがあります

ブログの投稿は楽しく、読みやすくなっています(所属はありません)。スキャンして、上からいくつかをスクレイピングする価値があります。

  • 1984年以来処刑されたすべてのテキサスの囚人の最後の言葉

  • 猫の10,000枚の注釈付き画像

  • 220万チェスの試合





14

このフォーラムは初めてです。この質問に遅れて言った。私は、公開されているデータポータルのカタログを管理しています(共同設立者です)。現在、世界中に1000以上のポータルがあり、国際、連邦、州、地方自治体、および学術レベルのポータルをカバーしています。

http://www.opengeocode.org/opendata/


14

http://www.kaggle.comには一貫して新しい非常に興味深いデータセットがありますので、このことについて言及していないのは驚きです。情報は資産と見なされるため、多くの場合、企業はそのデータを公開することを望みません(それに加えてプライバシーの問題もあります)。Kaggleはあなたにデータを提供し、ビジネス上の問題を引き換えに解決することを望んでいます。


14

1
両方のデータセット/リンクに関する情報を提供してください。これにより、特定の種類のデータセットを探している人の負担が実際に軽減されます。他の投稿を参照して、参照に不足している情報の種類を確認してください。
ルーベンス

11

既に述べたように、APIはデータではなくハードな部分です。 Quandlは、1つの簡単でRESTfulなAPIの下で1,000万を超える公開データセットを提供することで、この問題を解決しているようです。プログラミングがあなたの強みではない場合、Excelへのデータのロードを非常に簡単にする無料のツールがあります。あなたがあればまた、行うプログラミングを楽しんでいくつかのネイティブライブラリがあるRやPython、Javaとよりは





9

リストされていない他のデータソースの1つはGDELTプロジェクトです。サイトから:

GDELT Projectは、100を超える言語で世界中のほぼすべての隅からの放送、印刷、およびWebニュースを監視し、毎日、私たちのグローバル社会を推進する人々、場所、組織、数、テーマ、ソース、イベントを特定し、全世界でコンピューティングのための無料のオープンプラットフォームを作成します。


8

このsubredditは、多くの既知のデータセットをリストします

Redditデータセット

そのsubredditには多くのデータセットリクエストがあり、そのいくつかは回答されています。


6

このためにgithubリポジトリを作成しました。データセットは大きくはありませんが、予測モデリング手法を実践および調査するための最小限の例であり、これを大きなデータセットに拡張できます。

機械学習問題バイブル(MLPB)

このレポのクール/ユニークな点は、すべての問題が[multi-class]、[unbalanced-data]、[regression]などのタグでタグ付けされ、特定のタイプの問題/データセットを簡単に見つけられることです。



6

これらのすべてのデータセットに加えて、インドに関連するデータに関心がある場合。インド政府の公式サイトは

これは、インド政府のさまざまな部門からのデータセットを提供し、ビッグデータ分析と機械学習に使用できます。



4

RにMASSパッケージをロードするだけで、複数のデータフレームまたはデータセットにアクセスします。

install.packages( "MASS")require( "MASS")


3

https://www.jc-bingo.com/aboutの 3つのデータセット

  • visitor-interests.csv 1週間のWebアクセスログに基づいて集計された訪問者の興味の集約。訪問者のIPアドレス、ユーザーエージェント文字列、訪問者の国、アクセスされたページの言語とトピックが含まれます。19,926レコード、2.9 Mb。
  • user-agents.csv人気順に並べられた実際の訪問者ユーザーエージェント。4,826レコード、716 Kb。
  • bots.csv Webアクセスログから抽出されたロボットIPアドレスとユーザーエージェント文字列。1,293レコード、122 Kb。

3

明らかに、公開データベースの大規模なセットが存在します。

まだ言及されていないものは、FAO(国連食糧農業機関)からのもので、次の場所からアクセスできます。

http://www.fao.org/faostat/

世界各国の食料生産に関するデータが含まれています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.