大量のデータをグラフィカルに表示する良い方法


15

私は、14の変数と345,000の住宅データの観測(建設された年、面積、販売価格、居住郡など)を含むプロジェクトに取り組んでいます。良いグラフィカルなテクニックと、素敵なプロットテクニックを含むRライブラリを見つけようとしています。

ggplotとラティスで何がうまく機能するかをすでに見ています。数値変数のいくつかについてバイオリンプロットを行うことを考えています。

明確で洗練された、最も重要な、簡潔な方法で、大量の数値または因子タイプの変数を表示するために、他のどのパッケージが推奨されますか?


「クリアで洗練された、そして最も重要なのは簡潔な方法」ggplot2のように聞こえます。
ブランドンバーテルセン

1
Rライブラリだけでなく、特定の種類のグラフも探しています。グラフに関する私の知識は、散布図、ボックス、qq、ヒストグラム、バイオリン、カーネル密度の推定などに限定されます。データについてより素晴らしいものを明らかにできる、やや不明瞭なグラフ。
クリストファーアデン

2
平行座標は別の言及のように聞こえます。また、次元削減の方法が役立つ場合があります。
タルガリリ

回答:


13

最高の「グラフ」は、誰もまだ言及していないのでとても明白です。地図を作ってください。住宅データは基本的に空間の場所に依存しているため(不動産についての古い見方によると)、最初に行うべきことは、各変数の明確で詳細な地図を作成することです。100万分の3のポイントでこれをうまく行うには、プロセスの短い作業を行うことができる産業用のGISが本当に必要です。その後、単変量分布を調べるために確率プロットと箱ひげ図を作成し、依存関係を調べるために散布図行列とさまよう図式箱ひげ図などを作成することは理にかなっていますが、マップはすぐに何を調べるか、どのようにモデリングするかを提案しますデータ関係、およびデータを地理的に意味のあるサブセットに分割する方法。


いい案!私はすでにすべてのデータポイントの緯度と経度を持っているので、そのようなタスクは比較的基本的です。もっと良いものがない限り、地図ライブラリは良い方法だと思っていました。
クリストファーアデン

2
あなたはまた、でこれを行うことができ@Christopher ggplot2(ESP。あなたは国の境界線を描画する必要がない場合)、had.co.nz/ggplot2/coord_map.html。それ以外の場合はmapsgmapsが優れています。GeoXpGRASSへのRインターフェースもあります。ところで、モンドリアンには地理データ用のプラグインがあります:)
chl

いくつかの優れた提案がある場合、ベストアンサーを割り当てるのは難しい場合がありますが、「簡潔」を念頭に置いて、これが正しい方向だと思います。ggplot2を試して、マップ、GeoXp、およびMondrianを見てみましょう。空間的にグラフ化するアイデアをありがとう!
クリストファーアデン


私はとの良好な成功を持っていたlatticeのをlevelplotcontourplot。パッケージにfieldsquiltplot、データが厳密にグリッド上にない場合に便利な機能など、いくつかの便利な機能があります。またTps、グリッド化されていないデータをグリッドに滑らかにするための素敵な薄板スプライン関数もあります。専用のGISソフトウェアに関しては、GRASSはどういうわけか私には意味がありません。QGISが好きです。
ウェイン

6

GGobiをご覧になることをお勧めします。GGobiには、少なくとも探索的な目的で、Rインターフェイスもあります。多数のグラフィック表示があり、特に多数の観測値と変数を処理し、これらをリンクするのに役立ちます。Learn GGobiページの「デモを見る」セクションにあるビデオをいくつか見ることから始めたいかもしれません。

更新

コメントでchlが示唆した、GGobi用のHadley Wickhamのツールへのリンク:

  • DescribeDisplay "Rでggobiグラフィックを再作成する方法を提供するRパッケージ"
  • clusterfly「高次元でのクラスタリング結果の調査」
  • rggobiGGobiとの簡単なインターフェースを提供するRパッケージ」

1
レッツは、例えば、GGobiの利便性を高めるためにハドレーのRツールを追加し@ars DescribeDisplayclusterfly
chl

私の答えで書いたように、こんにちは。ggobiでの私の経験は、ggobiが大きなデータセットをうまく処理できないことです。別の経験がありますか?
タルガリリ

@Talこの問題は、Rベースのグラフィックスに一般的な、画面の表示/レンダリングにグリフに依存しないことに起因しています。これは、最新のDSC会議(j.mp/bpOhBH)で議論されました。実際には、Qtをバックエンドとして使用する進行中のプロジェクトと、GGobiの新しいポートがあり、大きなデータセットのインタラクティブな表示を強化しています。
chl

1
@Tal:私の経験では、たとえば、PCPで変数を追加したり、ディスプレイを再配置するためにドラッグしたりすると、ビューの更新/再描画が非常に遅くなります。それでも、大きなデータで宣伝されているほどインタラクティブではありませんが、使用できます。@chl:それは知っておくと良いことです、ありがとう!
アルス

1
@ars @Talここに、R(j.mp/d1AJp7)およびGGobi(j.mp/cUOvfpの Qtインターフェイスのリンクがあります。)のです。HadleyのGithubリポジトリもご覧ください!
chl

6

あなたは実際に2つの質問をしているように感じます:1)どの種類の視覚化を使用するか、2)どのRパッケージがそれらを生成できるか。

使用するグラフのタイプは多数あり、ニーズに応じて異なります(例:変数のタイプ-数値、係数、地理など、表示する接続のタイプ):

次に、その方法について説明します。多くのデータポイントの問題の1つは、プロットが作成されるまでの時間です。ggplot2、iplots、ggobiは、あまりにも多くのデータポイントに対してあまり良くありません(少なくとも私の経験から)。その場合、Rベースのグラフィック機能に焦点を当てるか、データをサンプリングして他のすべてのツールを使用することをお勧めします。または、iplotsを開発している人々が極端な(または Acinonyx)を先行リリース段階に到達する。


rflowcytとAcinonyx に関するリンクをお寄せいただきありがとうございます。
chl

BTWは、rflowcyt最近のBioconductorのリリースで非推奨になりましたflowViz。現在、を使用することをお勧めします。とにかく、両方ともに依存していlatticeます。
-chl

非常に徹底的な答え、タル!プロット生成時間は大きな問題ではありません。私はほとんどのグラフを基本パッケージで実行してきましたが、グラフをより見栄えよくするという問題は、紙にグラフを使用することにしたときの問題でした。私は数値変数に散布図行列を使用することを検討していましたが、それらの多くは異なる単位であるため(一部はドルで、他は平方フィート)、取得できる唯一の貴重な情報は一般的な傾向ですが、変数、8x8 SPMは少し乱雑です。
クリストファーアデン

3

Mondrianはインタラクティブな機能を提供し、非常に大きなデータセットを処理します(ただし、Javaにあります)。

Paraviewには2D / 3D vizが含まれています。特徴。


2つの新しいライブラリをありがとう。これら2つとの主な矛盾は、レポートを紙のコピーで提出しているため、インタラクティブなグラフィックスが完全に使用されていない可能性があることです。モンドリアンのグラフィックはかなり複雑に見えます。見てみましょう。
クリストファーアデン

@Christopherモンドリアンの場合iplots、@ Talが引用した「同等の」Rバージョンがあります。Paraviewについては、vizのスクリーンショットを保存するオプションがあります。DescribeDisplayGGobi、cran.r-project.org/ web/ packages/ DescribeDisplay/ index.htmlから動的な視覚化をエクスポートする方法です
chl

-3

あなたの注意を喚起したいのですが、 並列座標:視覚的多次元幾何とそのアプリケーションで、この分野の最新のブレークスルーとアプリケーションが含まれています。

この本は、とりわけスティーブン・ホーキングによって賞賛されました。表面は、その点での法線ベクトルによって(双対性を使用して)記述されます。航空交通管制(自動衝突回避-3つの米国特許)、多変量データマイニング(数百の変数を含む一部の実際のデータセット)、多目的最適化、プロセス制御、集中治療スマートディスプレイ、セキュリティ、ネットワークビジュアライゼーション、最近のビッグデータ。


5
こんにちはAlfred、このサイトに参加してくれてありがとう、しかしこれはちょっとしたプロモーションとしてやってくる。おそらく、OPのデータセット(14の変数と345,000の観測値)に似た例があり、画像を提供し、平行座標がどのように役立つかを説明/実証できますか?私がこれまでに多くの観測で見た静的な平行座標チャートの多くは、プレート上のスパゲッティのように見える傾向がありますが、そのような大きなNデータを理解する方法についてより良い洞察を持っていると思います。
アンディW

こんにちはアンディ、私はそのような多くの観察の例がありません。イン
アルフレッドインセルバーグ

こんにちはアンディ、私はそのような多くの観察の例がありません。対話性はデータ探索に不可欠です。「謎の」障害を発見するために、携帯電話ネットワークで約800個の変数と10,000個の観測値を持つデータセットを作成しました。分類器を段階的に使用し、対話式で11個の変数が見つかり、ネットワーク内の異常なアクティビティが障害に気付く3〜4時間前に検出されました。
アルフレッドインセルバーグ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.