データ視覚化の例、教育、研究用のデータセット


9

私が研究しているいくつかのdatavis手法をテストするために使用できる既存のデータセットを検索しています。

私はRに含まれているようないくつかのリソースを知っています(試してみるplot(Orange)、ここを参照してください)。

しかし、私はそれを一歩前進させたいと思います:

  • 視覚化ツールをテストするのに最適な実際のデータセットはどれですか?
  • 学術論文やdatavisに関する教育用スライドで使用したデータセットはどれですか。
  • グラフ化の利点を示す実例の中で最も良い例はどれですか。

2
リンクされたプロジェクトのいくつかがデータセットを提供している(しかし、残念ながらほとんどは提供していない)多くの現実の例:infosthetics.com
WSkid

1
無料のデータセットを明確に探していますか?
Fomite、2011年

3
ビジュアライゼーションは、コンテキストとオーディエンス(特に)に依存しているため、このコンテキストでは「ベスト」はあいまいであることを示唆しています。調査している「テクニック」を示すことにより、より的を絞った適切な回答を得ることができます。
whuber

1
@whuber Techniques、視覚化の自動化について。説明のために。ベンチマークとしては最適です。
robermorales

@EpiGradはい、可能な限り無料です。
robermorales 2011年

回答:


5

インターネット上で利用できるデータベースは多数あります。主題に応じて、さまざまなソースを取得できます。

たとえば、人間開発のサブジェクトエリアでは、(http://hdrstats.undp.org/)にデータソースがあります。

http://hdrstats.undp.org/en/tables/default.html

気候変動の観測については、(http://www.ipcc-data.org/)に高解像度の気候データが掲載されたWebがあります。次に例を示します。

http://www.ipcc-data.org/obs/cru_ts2_1.html

どちらの例にも、出版された科学論文で使用されている実際のデータが含まれており、大量のデータが含まれています。時間関連および/または空間関連のデータ。これらのデータの可視化の可能性は無限大です。


これらの壮大なソースから可能なデータセットのうち、どれが一番好きですか。感謝
robermorales

1
それは、視覚化の「味」に対する適合性に依存します。たとえば、時系列を探索/表示するには、IPCC Webに十分なデータがあり、広く使用されており(明らかに気候変動の分析に)、空間データを表示するには、Human Development Webサイトに、宇宙関連のデータと時間。
ホセズブコフ

最初のリンクが壊れています(DNSエラー)。
horaceT 2016

残念なことに最初のリンクは壊れています(5年後)が、そこには多くのオープンデータがあります: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Joseズブコフ2016年

9

私が使用したいAnscombeの回帰を行うときにプロットすることの重要性を示すために、(Rでも利用可能)データセットを。慣れていない場合は、4つのデータセットすべてがまったく異なるように見えても、4つのデータセットすべてから同じ回帰直線と診断が得られます。以下のプロットを取り、残差プロットに変換して、回帰を実行した後に残差で探す可能性がある問題を説明できます。

Anscombeデータセット


ええ、私たちはそのデータセットを知っていました。それは良い出発点です。
robermorales 2011

主な問題は、それが実際のデータセットではないことです。
robermorales 2011

3
@robermorales、十分に公平ですが、問題の「純粋な」バージョンを見ると、厄介な現実世界の視覚化/問題を理解しやすくなると思います。
チャーリー

6

グラフ化の利点を示す実例の中で最も良い例はどれですか。

どんな大きなテーブルでも。例として、「公式の国勢調査表」のグーグル画像。以下のようなものが表示されます

また、ゲルマンらを見てください。(2002)私たちが宣べていることを実践しましょう:テーブルをグラフに変える。アメリカの統計学者56:121-130

巨大で複雑なテーブル


良いヒント!refはわかりません。
robermorales 2011

4

ウィリアムS.クリーブランドは2冊の本でグラフィックの優れた使用法を満載しており、データの視覚化でグラフを作成するためのデータとコードは彼のWebサイトにあります。


クリーブランドのデータセットはどれが好きですか?感謝
robermorales

1
@robertomorales私はそれらすべてが目的のためにうまく選択されていると思います。統計グラフィックスに関心のある方は、クリーブランドを注意深く研究する必要があります。
ピーターフロム-モニカの回復

1
データを視覚化するためのデータlib.stat.cmu.edu/datasets/visualizing.data.zip にあります。クリーブランド自身のWebサイトではそれらを見つけることができなくなりました。
Nick Cox

4

おそらくあなたはすでにこれらを知っていますが、ここではとにかくそれらがあります:

UCI機械学習Repositor yは、多くの公的にアクセス可能な、実世界のデータ・セットを持っています。

米国政府は、そのデータセットの多くをdata.govで公開しています。

トリッキーな視覚化データが必要な場合は、分類タスクを検討することをお勧めします。UCI MLRに設定されたBag of Wordsにはいくつかの優れたプロパティがあるように見えますが、(私がそれを使用してからしばらくの間)間違えられる可能性があります。


ありがとう!たくさんあります!
robermorales

3

ここにいくつかあります。

Sci2ツールのサンプルデータセット
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Sci2ツールにバンドルされているサンプルデータセット。

Tableauサンプルデータセット
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Tableauを使い始めるためのサンプルデータセット。

素晴らしいパブリックデータセット
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
パブリックデータソースのこのリストは、ブログ、回答、およびユーザーの応答から収集され、整理されています。ほとんどのデータセットは無料ですが、一部は無料ではありません。

このスレッドはかなり古く、このバンプがいくつかの新しい貢献を期待しています!


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.