データセットを最初に一目で見る


10

私の無知を許してください、しかし...

自分で見つけた新しいデータの束に直面している状況で、自分を見つけ続けています。このデータは通常、次のようになります。

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

通常、一見、ここに傾向があるかどうかは本当にわかりません。さまざまな列間の相関関係はそれほど重要ではないかもしれませんが、列/カテゴリのすべての可能な組み合わせに対して手動でプロットを作成する必要がなかったとしたら嬉しいです。

データのテーブルと、列を数値、日付、カテゴリとして扱う必要がある情報を受け入れ、プロットを開始するツールはありますか?

  • 各2つの数値列間の相関
  • 各2つの数値列間の相関関係、各カテゴリの個別のトレンドライン
  • 時系列としての各数値列、
  • カテゴリで区切られた時系列としての各数値列、

最終的に、これは多数のプロットを生成し、そのほとんどはノイズのみを示します。理想的には、このツールは相関によってプロットにスコアを付け、最終的に最もスコアの高いプロットからスライドショーを表示できます。これは非常に不完全ですが、データセットを一見すると便利です。

そう?誰もがこれに使用するツールがあり、私はそれについて知らないだけですか、これは私たちが作る必要があるものですか?


回答ありがとうございました。私は、私のデータについて言及した各ツールをテストするために時間をかけています。テストの後で答えを選びます。私はそれを1
つしか

回答:


15

@Ondrejと@Michelleはここでいくつかの良い情報を提供しています。他で言及されていないいくつかのポイントに対処することで貢献できるかどうか疑問に思います。表形式のデータから多くの情報を収集できないことについて、自分で打ち負かすことはありません。表は一般に、情報を提示するための非常に良い方法ではありません(Gelman et al。、Turning Tables to Graphs)。一方、新しいデータセットを探索するのに役立つすべての適切なグラフを自動的に生成するツールを求めるのは、あなたのためにあなたの思考をするツールを求めるのとほとんど同じです。(間違った方法をとらないでください。あなたの質問があなたがそれほど遠くに行っていないことを明らかにしていると私は認識しています。私は本当にそのようなツールが決してないことを意味します。)これに関連する素晴らしい議論が見つかるでしょう。こちら

これらのことを述べたので、データの調査に使用できるプロットの種類について少しお話ししたいと思います。質問にリストされたプロットは良いスタートですが、少し最適化できるかもしれません。まず、「多数のプロット」を作成して変数のペアを相互に関連付けることは、理想的ではないかもしれません。散布図は、2つの変数間の周辺関係のみを表示します。多くの場合、重要な関係は、複数の変数のいくつかの組み合わせで非表示にできます。したがって、このアプローチを強化する最初の方法は、散布図行列を作成することですすべてのペアワイズ散布図を同時に表示します。散布図行列はさまざまな方法で拡張できます。たとえば、各変数の分布の単変量カーネル密度プロットと組み合わせることができます。異なるマーカー/色を使用して異なるグループをプロットでき、レスフィットをオーバーレイすることにより、非線形関係の可能性を評価できます。scatterplot.matrixRのcarパッケージの関数は、これらすべてのことをうまく実行できます(例は、上記のリンク先のページの途中で確認できます)。

ただし、散布図行列は良い出発点ですが、まだ周辺投影のみを表示しています。これを超えようとする方法はいくつかあります。1つは、R のrglパッケージを使用して3次元プロットを探索することです。別のアプローチは、条件付きプロットを使用することです。coplotは、3つまたは4つの変数間の関係を同時に支援できます。特に有用なアプローチは、散布図行列をインタラクティブに使用することです(ただし、これを学ぶにはより多くの努力が必要になります)、たとえば「ブラッシング」など。ブラッシングを使用すると、マトリックスの1つのフレーム内の1つまたは複数のポイントを強調表示でき、それらのポイントは他のすべてのフレームで同時に強調表示されます。ブラシを動かすと、すべての変数が一緒に変化する様子を確認できます。更新:私が言及するのを忘れていたもう1つの可能性は、平行座標プロットを使用することです。これには、応答変数を明確に区別できないという欠点がありますが、たとえば、X変数間の相互相関を調べる場合に役立ちます。

収集された日付で並べ替えられたデータを調べてくださったことも評価したいと思います。データは常に時間の経過とともに収集されますが、人々は常にこれを行うわけではありません。折れ線グラフをプロットするのはいいですが、自己相関部分自己相関のグラフで補足することをお勧めします。Rでは、これらの関数はそれぞれacfpacfです。

これらすべてが、自動的にすべてのプロットを作成するツールを提供するという意味であなたの質問に完全に答えるものではないことを認識していますが、1つの意味は、実際に恐れるほど多くのプロットを作成する必要がないことです。たとえば、散布図行列はコードの1行にすぎません。さらに、Rでは、関数/再利用可能なコードを自分で記述して、部分的に自動化(たとえば、変数のリストと日付の順序を取り、それらを並べ替える関数を想像できます) 、ライン、acf、およびpacfプロットを使用して、それぞれの新しいウィンドウをポップアップします。


いつものように、優れた点。:)
ミシェル

2
(1)お見逃しなくggobimarginal.plotからlatticeExtraのパッケージを。
2012年

7

数値列の各ペア間の相関関係は、相関行列で表示できます。それは純粋に数値である必要はなく、色分けしてすばやく一目で評価できます。Rのcorrplotパッケージを確認してください。

さらなる分析のために、 Rattleは非常に便利なGUIツールです。

キーワード「corrplot」または「Rattle」を使用してStack Exchangeを検索すると、これらのツールとその代替がカバーされているいくつかのトピックが見つかります。お気に入りこの

幸運を!


4

@Ondrejは良いアドバイスをしてくれたので、ソフトウェアがインポートされたデータをどのように扱うかについてのあなたの質問に焦点を当てます。「Category 1」と「Category 2」の文字データでは、これらのデータに対して数学的な演算を実行できないため、ソフトウェアはこれらを自動的にグループまたは因子として扱います。つまり、数値を必要とする分析に、これらのカテゴリから何かを入力することはできません(または、メニュー方式のシステムの代わりに構文またはコマンドラインを使用していると、エラーが発生します)。

「数値1」や「数値2」などのデータの場合、ソフトウェアはこれらを数値として読み取ります。純粋に数値のデータを含むグループ/因子がある場合は、これらがグループ/因子であることをソフトウェアに指示する必要があります。

日付が統計ソフトウェアに正しくインポートされない場合があります。データをインポートすると、統計ソフトウェアのデータタイプに「日付」の「日付」タイプが表示されていることがわかります。データ型が日付以外の場合は、問題があります。日付として表示されている場合でも、月の13日や25日などの日付が含まれている行のインポートを確認してください。ソフトウェアの設定方法によっては、アメリカ/イギリスの日付形式が原因でインポートのデータが不安定になる場合があります、日/月の逆転のため。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.