インタラクティブなデータ視覚化はいつ使用すると便利ですか?


17

すぐに話す講演の準備をしている間、私は最近、インタラクティブなデータ視覚化のための2つの主要な(無料)ツールであるGGobimondrianを掘り始めました。

明確に表現するためにあなた自身の助けを求めたい(自分自身と私の将来の聴衆の両方に)インタラクティブなプロットを使用することはいつ役に立ちますか?データ探索(自分用)とデータ表示(「クライアント」)のどちらか

クライアントにデータを説明するとき、次のアニメーションの価値を確認できます。

  • 「識別/リンク/ブラッシング」を使用して、グラフ内のどのデータポイントが何であるかを確認します。
  • データの感度分析の提示(例:「このポイントを削除すると、ここに得られるものがあります)
  • データ内のさまざまなグループの効果を示す(例:「男性のグラフを見て、今度は女性のグラフを見てみましょう」)
  • 時間の効果を示す(または年齢、または一般に、プレゼンテーションに別の次元を提供する)

自分でデータを調べる場合、作業中のデータセットの外れ値を調べるときに、識別/リンク/ブラッシングの価値がわかります。

しかし、これら2つの例以外では、これらの手法が他の実用的な用途を提供するかどうかはわかりません。特に私たち自身のデータ探索のために!

インタラクティブな部分は、データ内のさまざまなグループ/クラスターのさまざまな動作を探索するのに適していると主張できます。しかし、(実際に)そのような状況に近づいたとき、私がしがちだったのは、関連する統計手順(および事後検定)を実行することでした-そして、重要であることがわかった場合は、データを関連グループ。私が見てきたことから、これはデータを「不思議に思う」よりも安全なアプローチです(データのdrに簡単につながる可能性があります(修正に必要な多重比較の範囲は明確ではありませんでした)。

この件に関するあなたの経験/考えを読んでとてもうれしいです。

(この質問はウィキにすることができます-主観的ではなく、よく考えられた答えが喜んで私の「答え」マークを獲得します:))


3
少なくとも私の場合、私はやや同じ船に乗っています。Mondrianに感謝し、最新の状態に保ちますが、実際に新しいデータセットを探索するときは、Rである傾向があります。私はあなたに完全な答えを書き始め、私は実際の経験からではなく理論的に話していることに気付きました。
ウェイン

回答:


8

@whuberで示されているように、定量的または定性的データを空間パターンにリンクすることに加えて、縦断的および高次元のデータ分析のために、ブラッシングとさまざまなプロットをリンクするEDAの使用について言及したいと思います。

両方については、Dianne CookとDeborah F. Swayne(Springer UseR!、2007年)による優れた書籍RおよびGGobiによるデータ分析のためのインタラクティブおよびダイナミックグラフィックスで説明されています。著者はジョン・テューキーを引用し、「私たちに予想外の強制」にEDAの必要性を正当化する、第1章でEDAの素敵な議論を持っていた(p 13は。):インタラクティブでダイナミックなディスプレイの使用は、どちらもあるスヌーピングデータ、また予備データ検査(たとえば、データの純粋にグラフィカルな要約)が、純粋な仮説ベースの統計モデリングに先行または補完する可能性のあるデータのインタラクティブな調査と見なされます。

Rインターフェイス(rggobi)と共にGGobiを使用すると、DescribeDisplayまたはggplot2パッケージのおかげで、Projection Pursuitpp。26-34)でも、中間レポートまたは最終公開用に静的グラフィックスを生成する方法の問題も解決します。

同じラインでは、マイケル・フレンドリーは長いだけでなく、より最近では、大部分はVCDパッケージに例示されているカテゴリデータ分析、データの可視化を使用することを提唱しているvcdExtraのパッケージ(ダイナミックすなわち含む。を通じてRGLのパッケージ)、その対数線形モデルを拡張するためのvcdパッケージとgnmパッケージ間の接着剤として機能します。彼は最近、第6回CARME会議Rでのvcd、gnm、およびvcdExtraパッケージを使用したカテゴリデータの視覚化の進歩で、その作業の概要を説明しました。

したがって、EDAは、純粋に統計的なモデリングアプローチの前に、または並行して、データの視覚的な説明を提供するものと考えることもできます(観測データの予期しないパターンを説明できるという意味で)。つまり、EDAは、手元のデータの内部構造を調査するための有用な方法を提供するだけでなく、それに適用される統計モデルを洗練および/または要約するのにも役立ちます。たとえば、バイプロットでできることは本質的にです。それらは多次元分析技術そのものではありませんが、多次元分析の結果を視覚化するためのツールです(近似を与えることにより)すべての個人を一緒に、またはすべての変数を一緒に、または両方を考慮した場合の関係の)。ファクタースコアを元のメトリックの代わりに後続のモデリングで使用して、次元を減らすか、中間レベルの表現を提供できます。

サイドノート

昔ながらのリスクがあるので、私はまだxlispstatLuke Tierney)を時々使用しています。インタラクティブディスプレイ用のシンプルかつ効果的な機能があり、現在ベースRグラフィックスでは使用できません。Clojure + Incanter(+ Processing)の同様の機能については知りません。


8

グラフィックの動的リンクは、探索的空間データ分析ESDA)に自然で効果的です。ESDAシステムは通常、1つ以上の定量マップ(コロプレスマップなど)を、基になるデータの表形式のビューと統計グラフィックスにリンクします。こうした機能の一部は、約15年間、いくつかのデスクトップGISシステムの一部であり、特にArcView 3(廃止された商用製品)です。無料のGeoDaソフトウェアは、空間データの探索と統計分析のために設計された環境内でこれらの機能の一部を提供します。独特のインターフェイスと洗練されていないグラフィックスを備えた不格好ですが、バグはほとんどありません。

このEDAの使用は、多くの(ほとんどの?)状況で明確な統計モデルがなく、明白な(または適切な)統計的テストも存在せず、仮説テストはしばしば無関係であるため、統計的テストは対話型探索よりも優れている可能性があるという異議を回避します:人々は、何が発生するかどこで発生するを確認し、空間コンテキストの変数間の統計的関係を観察する必要があります。 すべてのデータ分析が正式な手順であるわけではなく、正式な手順で構成される必要もありません!


こんにちは、フーバー。ESDAのあなたの例は素晴らしい例です、ありがとう!あなた(または他の人)が、正式な手順の関連性が低い場合の他の例を提案できる場合、これが最も役立ちます。
タルガリリ

7

私にとってインタラクティブな視覚化は、私自身の調査、または非常に実践的なクライアントで作業する場合にのみ役立ちます。最終的なプレゼンテーションを処理するときは、最も重要な静的グラフを選択することを好みます。そうしないと、クライアントはジーウィズ要因に完全に気を取られてしまいます。

私が得た最大の利点は、ソリューションのプログラミングをやめた場合よりもはるかに多くのことを調べることができる速度のレベルです。JMPは、私が望むものの多くを単一のインターフェースに統合するため、このための私のお気に入りのツールの1つです。優れた統計プログラマーであるほとんどの人は、JMP(またはGGobiなど)のようなものを短期間で試し、実際にそれを上手く使うことはできないと思います。特にJMPは、メニューを見るだけで、あなたがそれを知っているという印象を与えます。ただし、マニュアルのすべての機能を明らかにするには、マニュアルを使用する必要があります。

ただし、このレベルの速度に関する私の主な懸念について述べました。つまり、p値の意味がまったくわからないということになります。わずか数分で、数百の関係を視覚的に調べることができます。結局仮説テストを行うことは完全に誤解を招くかもしれませんが、私は人々がいつもそうするのを見ています。

私がGGobiで気に入っている機能は、投影の追跡です。高次元の空間でどのタイプのパターンを探すかを指定し、座ってその目標を「追求」します。素晴らしいもの!


2
+1。最終プレゼンテーションについての発言は、注目に値する反例として、ハンス・ロスリングの有名な2006年のTEDトーク(ted.com/talks/…)を思い起こさせます。再:「はるかに」を調べることについてのポイント、私は証言の裏付けとなるデータをどのように調べたのか、そして彼女が仕事がインタラクティブに行われたことを学んだときに彼女の顔がどのように落ちたのかについて、弁護士が私に尋ねた方法を思い出しますそのため、何も印刷も保存もされませんでした(彼女は召喚状を調べ、調査し、impしようと試みました)。;-)
whuber

JMPは、最も優れた統計アプリケーションの1つです。統計学者は、クライアントを感動させるためだけに、それを使用する方法を間違いなく学ぶべきです。高価ですが、学生/学校/大学/大学のスタッフの場合は安いです
ニールマク
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.