公開されているデータセット

168

データサイエンスの一般的な問題の1つは、さまざまなソースからデータを何らかの形で（半構造化された）形式で収集し、さまざまなソースのメトリックを組み合わせて高レベルの分析を行うことです。他の人の努力、特にこのサイトの他の質問を見ると、この分野の多くの人がやや反復的な仕事をしているようです。たとえば、ツイート、Facebookの投稿、Wikipediaの記事などを分析することは、多くのビッグデータの問題の一部です。

これらのデータセットの一部は、プロバイダーサイトによって提供されるパブリックAPIを使用してアクセスできますが、通常、これらのAPIからいくつかの貴重な情報またはメトリックが欠落しているため、誰もが同じ分析を何度も繰り返す必要があります。たとえば、ユーザーのクラスタリングはさまざまなユースケースと機能の選択に依存する場合がありますが、Twitter / Facebookユーザーの基本的なクラスタリングは、APIによって提供されず、独立したデータセットで公開されていない多くのビッグデータアプリケーションで役立ちます。

他のビッグデータの問題の解決に再利用できる貴重なデータセットを含むインデックスまたは公開されているデータセットホスティングサイトはありますか？データサイエンスのためのGitHub（またはサイト/パブリックデータセットのグループ、または少なくとも包括的なリスト）のようなものを意味します。そうでない場合、そのようなデータサイエンスのプラットフォームがない理由は何ですか？データの商業的価値、データセットを頻繁に更新する必要がある、...？データサイエンティスト向けに考案されたデータセットを共有するためのオープンソースモデルはありませんか？

open-source dataset

— Amir Ali Akbari
ソース

18

この質問は、専用のopendata.SEにより適している場合があります。とは言うものの、「データのGit」になることを目指しているdatに手を出します。

— ojdo

2

@ojdoおかげで、以前にopendata.SEについて聞いたことがありません。また、この興味深い（そして非常によく似た）質問もありました。

— アミールアリアクバリ

2

quora.com/Where-can-I-find-large-datasets-open-to-the-publicを参照してください。

— ピョートルミグダル

一般的なビジネスインテリジェンスアプリケーション用の優れた無料の包括的なデータセットは見つかりませんでした。小売業のためのMicrosoftのContoso BIデモデータセットオフィシャルマイクロソフトからセンターのダウンロードダウンロードは、いくつかのMicrosoft製品と連携（参照のSharePointおよびその他のビジネスソフトウェアにAndyGettを）が、私はそれのいずれかのプレーンなSQLまたはCSVダンプが表示されない、また任意のライセンス情報。

— nealmcb

1

Open Data Stack Exchangeに参加しましたか？opendata.stackexchange.com

— sss4r

88

実際、公的に利用可能なデータセットの非常に合理的なリストがあり、さまざまな企業/ソースによってサポートされています。

それらのいくつかを以下に示します。

さて、あなたの質問に関する2つの考慮事項。1つ目は、データベース共有のポリシーに関するものです。個人的な経験から、プライバシーの制限（ソーシャルネットワーク情報など）や政府の情報（医療システムデータベースなど）の関係で、公開できないデータベースがいくつかあります。

別のポイントは、データセットの使用法/アプリケーションに関するものです。一部のベースはアプリケーションのニーズに合わせて再処理できますが、目的ごとにデータセットを整理しておくと便利です。分類は、ソーシャルグラフ分析、アイテムセットマイニング、分類、およびがあるかもしれない他の研究分野の多くを関与させるべきです。

— ルーベンス
ソース

64

更新：

現代のデータサイエンスと機械学習の愛好家のホームであるKaggle.com は、データセットの独自のリポジトリを開設しました。

リストされたソースに加えて。

一部のソーシャルネットワークデータセット：

Stats SEには多くのソースがリストされています。

— IharS
ソース

37

公開されているデータセットは数多くありますが、多くの人が見落としがちなのはdata.govです。前述のように、Freebaseは素晴らしいので、@ Rubensによって投稿されたすべての例も同様です。

— MCP_infiltrator
ソース

35

Freebaseは、多くの興味深いトピックにまたがる無料のコミュニティ主導型データベースであり、機械可読形式で約25億の事実が含まれています。データクエリを実行するための優れたAPIもあります。

以下に、オープンデータセットの別のコンパイル済みリストを示します。http：//www.datapure.co/open-data-sets

— コンスタンチンV.サリコフ
ソース

Freebaseは閉鎖され、そのデータベースは間もなくWikidataに移動します。

— cynddl

31

以下のリンクが利用可能です

— ジャクビー
ソース

25

特に時系列データの場合、Quandlは優れたリソースであり、（ほとんど）クリーンな時系列の簡単に参照可能なディレクトリです。

彼らの最もクールな機能の1つは、オープンデータ株価です。つまり、ウィキスタイルで編集できる財務データであり、ライセンスの制約を受けません。

— アザバズー
ソース

20

Enigmaは、公開されている利用可能なデータセットのリポジトリです。無料プランでは、1か月あたり1万件のAPIコールを使用して、公開データ検索を提供しています。すべてのパブリックデータベースがリストされているわけではありませんが、一般的な場合にはリストで十分です。

私はそれを学術研究に使用し、多くの時間を節約しました。

もう1つの興味深いデータソースは、@ unitedstatesプロジェクトです。これには、米国（議会の議員、地理的形状など）に関するデータとそれらを収集するツールが含まれています。

— cynddl
ソース

18

The Open Data Censusを指摘したいと思います。これは、世界中のオープンデータ支持者や専門家からの貢献に基づいたOpen Knowledge Foundationのイニシアチブです。

オープンデータ国勢調査の価値は、オープンでコミュニティ主導の体系的な取り組みであり、オープンデータセットのデータベースを国全体、場合によっては米国のように都市レベルでグローバルに収集および更新します。

また、関心のある特定の領域でさまざまな国や都市を比較する機会を提供します。

— トマスカゼメカス
ソース

18

The Guardianが提供する別のリソース、British Dailyも彼らのWebサイトにあります。Guardian Datablogによって公開されたデータセットはすべてホストされています。フットボールプレミアリーグクラブのアカウントに関連するデータセット、英国のインフレ率とGDPの詳細、グラミー賞のデータなど。

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

その他のリソース。一部のデータセットはR形式であるか、データをRに直接インポートするためのRコンマが存在します。

http://www.inside-r.org/howto/finding-data-internet

— ビンガ
ソース

17

カスタムGoogle検索

データセットにカスタムGoogle検索を使用できます。

Googleカスタム検索：データセット

この質問に記載されているすべてを含む、230個のソースとデータセットのメタソースが含まれています。検索行に「-.gov」または「-site.com」を追加して、結果から.govおよびその他のWebサイトを除外してください。他のGoogle検索演算子が機能します。

どのWebサイトを追加するべきかアイデアがあれば、遠慮なく私に連絡してください。

IOGDS

次のサービスは、1,000,000を超えるパブリックデータセットを分類します。

IOGDS：国際公開政府データセット検索

— アントン・タラセンコ
ソース

指定したカスタム検索リンクのパラメーターは何ですか？ウェブサイト、キーワードなどのリストを検索しますか？

— アミールアリアクバリ14

@AmirAliAkbari Data.gov、Quandl、その他の主要なデータウェアハウスなどのソースを検索します。

— アントンタラセンコ14

16

遅い答えですが、ここに100以上の興味深いデータセットの折 listリストがあります

ブログの投稿は楽しく、読みやすくなっています（所属はありません）。スキャンして、上からいくつかをスクレイピングする価値があります。

1984年以来処刑されたすべてのテキサスの囚人の最後の言葉
猫の10,000枚の注釈付き画像
220万チェスの試合

— フィルシェム
ソース

15

Data Science Centralで、無料のデータセットのリストでこのリンクを見つけました。無料で利用できるビッグデータセット

— ラフデス
ソース

15

PUMAベンチマークとデータセットのダウンロードについてご存知ですか？ https://sites.google.com/site/farazahmad/pumadatasets

次のものが含まれます。

TeraSort
ウィキペディア
リストアイテム
自己参加
隣接リスト
映画データベース
ランクインバーテッドインデックス

— アルガレク
ソース

15

英国政府は、政府部門全体で収集された非個人データの優れたソースを提供しています：http : //data.gov.uk

— フェデラー
ソース

14

このフォーラムは初めてです。この質問に遅れて言った。私は、公開されているデータポータルのカタログを管理しています（共同設立者です）。現在、世界中に1000以上のポータルがあり、国際、連邦、州、地方自治体、および学術レベルのポータルをカバーしています。

http://www.opengeocode.org/opendata/

— アンドリュー-OpenGeoCode
ソース

14

http://www.kaggle.comには一貫して新しい非常に興味深いデータセットがありますので、このことについて言及していないのは驚きです。情報は資産と見なされるため、多くの場合、企業はそのデータを公開することを望みません（それに加えてプライバシーの問題もあります）。Kaggleはあなたにデータを提供し、ビジネス上の問題を引き換えに解決することを望んでいます。

— 羊
ソース

14

データセット

アカデミックトレント
クオラ
hadoopilluminated.com
data.gov
カンドル
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
GeoLite Legacyダウンロード可能データベース
Quoraのビッグデータセットの回答
パブリックビッグデータセット
ヒューストンデータポータル
Kaggleデータソース
ヒトの遺伝的変異の深いカタログ
有名な人、場所、物のコミュニティが管理するデータベース
Google Public Data
世界銀行データ
NYCタクシーデータ
オープンデータフィラデルフィラデルフィアのデータで人々をつなぐ
ネットワークリポジトリ 20以上のコレクションに600以上のネットワークがあるインタラクティブなデータリポジトリ。大規模なソーシャルネットワーク、ウェブグラフ、生物学的ネットワーク、通信および技術ネットワークなどから。
有用なソースのリストブログ投稿には多くのデータセットデータベースが含まれています

データがセットから素晴らしい-データサイエンス

— chenrui333
ソース

1

両方のデータセット/リンクに関する情報を提供してください。これにより、特定の種類のデータセットを探している人の負担が実際に軽減されます。他の投稿を参照して、参照に不足している情報の種類を確認してください。

— ルーベンス

11

既に述べたように、APIはデータではなくハードな部分です。 Quandlは、1つの簡単でRESTfulなAPIの下で1,000万を超える公開データセットを提供することで、この問題を解決しているようです。プログラミングがあなたの強みではない場合、Excelへのデータのロードを非常に簡単にする無料のツールがあります。あなたがあればまた、行うプログラミングを楽しんでいくつかのネイティブライブラリがあるRやPython、Javaとよりは。

— ブライアンリスク
ソース

11

終了しない可能性のあるリストに追加するには：

cynddが述べたように、Wikidataがあります。

そして、のためには、構造化された知識をキュレーションウルフラムアルファを。

— image_doctor
ソース

11

Githubでこのコレクションに出会いました。コレクションも分類されます。

https://github.com/caesar0301/awesome-public-datasets

そしてに関する部分について

データサイエンティスト向けに考案されたデータセットを共有するためのオープンソースモデルはありませんか？

The Leekグループガイドでデータ共有を参照できます

— シャグン・ソダーニ
ソース

10

すべての政府データがdata.govにリストされているわけではありません-Sunlight Foundationは、利用可能なデータのセットを説明するスプレッドシートのセットを2月にまとめました。

— スティーブカレスタッド
ソース

9

リストされていない他のデータソースの1つはGDELTプロジェクトです。サイトから：

GDELT Projectは、100を超える言語で世界中のほぼすべての隅からの放送、印刷、およびWebニュースを監視し、毎日、私たちのグローバル社会を推進する人々、場所、組織、数、テーマ、ソース、イベントを特定し、全世界でコンピューティングのための無料のオープンプラットフォームを作成します。

— dvdnglnd
ソース

8

このsubredditは、多くの既知のデータセットをリストします

Redditデータセット

そのsubredditには多くのデータセットリクエストがあり、そのいくつかは回答されています。

— ある男
ソース

6

このためにgithubリポジトリを作成しました。データセットは大きくはありませんが、予測モデリング手法を実践および調査するための最小限の例であり、これを大きなデータセットに拡張できます。

機械学習問題バイブル（MLPB）

このレポのクール/ユニークな点は、すべての問題が[multi-class]、[unbalanced-data]、[regression]などのタグでタグ付けされ、特定のタイプの問題/データセットを簡単に見つけられることです。

— ベン
ソース

6

Eurostats http://ec.europa.eu/eurostatおよびEuropean Central Bank https://www.ecb.europa.eu/stats/html/index.en.htmlは、私が頻繁に使用する多種多様なデータセットを提供作業プロジェクト。

— ジュハ
ソース

6

これらのすべてのデータセットに加えて、インドに関連するデータに関心がある場合。インド政府の公式サイトは

https://data.gov.in/

これは、インド政府のさまざまな部門からのデータセットを提供し、ビッグデータ分析と機械学習に使用できます。

— ガウラフ
ソース

4

Yahoo は研究コミュニティ向けの巨大なデータセットをリリースしました。楽しめ！

— カスラ・マンシャエイ
ソース

4

RにMASSパッケージをロードするだけで、複数のデータフレームまたはデータセットにアクセスします。

install.packages（ "MASS"）require（ "MASS"）

— ディリープ・バリニーニ
ソース

3

https://www.jc-bingo.com/aboutの 3つのデータセット

visitor-interests.csv 1週間のWebアクセスログに基づいて集計された訪問者の興味の集約。訪問者のIPアドレス、ユーザーエージェント文字列、訪問者の国、アクセスされたページの言語とトピックが含まれます。19,926レコード、2.9 Mb。
user-agents.csv人気順に並べられた実際の訪問者ユーザーエージェント。4,826レコード、716 Kb。
bots.csv Webアクセスログから抽出されたロボットIPアドレスとユーザーエージェント文字列。1,293レコード、122 Kb。

— 百合
ソース

3

明らかに、公開データベースの大規模なセットが存在します。

まだ言及されていないものは、FAO（国連食糧農業機関）からのもので、次の場所からアクセスできます。

http://www.fao.org/faostat/

世界各国の食料生産に関するデータが含まれています。

— 入植者
ソース