自由に利用可能なデータサンプルの検索


98

私は、データセットを分析および解析して、サブグループの特性を知らずに母集団のサブグループを特定および分離する新しい方法に取り組んでいます。この方法は、人工データサンプル(つまり、母集団のサブセットを識別および分離するために特別に作成されたデータセット)で十分に機能しますが、ライブデータでテストしてみたいと思います。

私が探しているのは、自由に利用できる(つまり、非機密、非専有)データソースです。好ましくは、バイモーダルまたはマルチモーダル分布を含むもの、または明らかに従来の手段では簡単に分解できない複数のサブセットで構成されるものです。そのような情報はどこで入手できますか?



4
あなたは好きかもしれませんgetthedata.orgデータセットを見つけることに専念質問と回答サイト
Jeromy Anglim

回答:



46


17

世界銀行は非常に多くの興味深いデータを提供しており、最近、そのための優れた APIの開発に非常に積極的に取り組んでいます。

また、commugrateプロジェクトには興味深いリストが用意されています。

健康指標倉庫の米国の健康関連データヘッドの場合。

Daniel Lemireのブログは、Canadian Census 1880シノプティッククラウドレポートなど、いくつかの興味深い例(主にDBの研究向けに調整されています)を指摘しています

また、今日(2012年3 月4日)については、米国の1940年国勢調査記録もダウンロードできます。


2
世界銀行はされて余分なマイルを行くのStataとR.のために、オープンデータやマップで
神父を

13

Gapminderには多数のデータセット(最後の外観では430個)があり、それらはあなたにとって役に立たないかもしれません。



10

見るのに適した場所は、カーネギーメロン大学のデータおよびストーリーライブラリまたはDASLです。これには、「基本的な統計手法の使用を例示するデータファイルが含まれています...教師が教育用のデータファイルを見つけて特定できるように設計されています。DASLが統計文献のデータセットのアーカイブとしても役立つことを願っています。」


9

Rを起動してを入力しdata()ます。これにより、検索パス内のすべてのデータセットが表示されます。多くの追加のデータセットがアドオンパッケージで利用可能です。たとえば、AERパッケージにはいくつかの興味深い現実世界の社会科学データセットがあります。




5

Stack Exchangeネットワークには、データ専用の新しいサイトOpen Data(2015年3月5日現在のベータ版)があります。次のように記述されます。

Open Data Stack Exchangeは、オープンデータに関心のある開発者や研究者向けの質疑応答サイトです。これは、Q&AサイトのStack Exchangeネットワークの一部として構築され、実行されます。皆様のご協力により、オープンデータに関するすべての質問に対する詳細な回答のライブラリを構築するために協力しています。

「オープンデータ」とは、「著作権、特許、またはその他の制御メカニズムの制限なしに、誰でも自由に使用および再公開できるデータセット」を指します(ウィキペディア)。ただし、このサイトは、閉じられたデータセットのリクエストを受け入れやすいようです。








2

私のニーズに合った適切なデータセットを探していると、この議論に関連する2つのサイトを偶然見つけました。

自身を次のように説明するDatacite.org ...

私たちは以下を目的とする国際組織です。

  • 研究データへのより簡単なアクセスを確立する
  • 学術記録における正当な貢献としての研究データの受け入れを増やし、
  • データのアーカイブをサポートして、結果を検証し、将来の研究に再利用できるようにします。

自身を次のように説明するDataBib.org ...

Databibは、人々が研究データのオンラインリポジトリを特定および検索するのを支援するツールです。ユーザーと参考文献作成者は、ユーザーが検索できるデータリポジトリを記述するレコードを作成および管理します。

他の人のためにここにリストに追加する価値があると思った。

リンクから自分のニーズに合ったものを見つけましょう!


2

quandl.comをチェックすることを強くお勧めします。これはデータプログラマーの夢です。1000万を超えるさまざまなデータにアクセスするための非常に簡単なAPIを提供します。2変量または多変量のデータを探しているので、人口データのさまざまなセットをチェックすることをお勧めします。たとえば、この世界人口チャートには、合計に含まれるサブコンポーネントの国と地域が含まれます。


1
一部のクアンドルデータは無料、一部は「プレミアム」、つまり費用は$$です。また、私のAPIの夢には、時系列のnrows、ncols、およびオンラインプロットが含まれます(ポニーが欲しい)。
デニス


1

経時使用

非常に大きなExcelスプレッドシートをダウンロードでき、ユーザーの人口統計を含むすべてのオンラインアクティビティのデータポイントが含まれています。このスプレッドシートをダウンロードまたは使用する前に、ヒントシート(下記)をお読みください。

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.