回答:
知らない もっと正確に言うと、単一の関数呼び出しで探索データ分析(EDA)と呼ばれるものの一部を行う単一のRパッケージについては知りません- 再表現と啓示の側面を考えていますHoaglin、Mosteller and Tukey、Understanding Robust and Exploratory Data Analysisで説明されています。特に、Wiley-Interscience、1983年。
ただし、Rには、特にデータのインタラクティブな探索に関して、いくつかの気の利いた選択肢が存在します(興味深い議論については、こちらをご覧ください:インタラクティブなデータの視覚化はいつ使用すると便利ですか?)。私は考えることができます
これは対話型のデータ探索のみを目的としていますが、これがEDAの本質だと思います。とにかく、上記の手法は、数値変数間の2変量または高次の関係を調べるときに役立ちます。カテゴリデータの場合、vcdパッケージが適切なオプションです(視覚化テーブルと概要テーブル)。次に、混合データ型の変数間の関係を調査するために、veganパッケージとade4パッケージが最初に来るよりもいいと思います。
最後に、Rでのデータマイニングについてはどうですか?(Rseekでこのキーワードを試してください)
loon
、wadella.github.io / loonもあり ます。これを指摘したクレジットは@hadleywickhamに送られます。
データセット内の変数がどのように相関しているかを簡単に確認したい場合は、psychパッケージのpairs()関数、またはさらに良いことにpairs.panels()関数を見てください。ここでペア関数について少し書きました。
pair()またはpsych :: pairs.panels()関数を使用すると、散布図行列を作成するのは非常に簡単です。
pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)
チェックアウトscagnostics
パッケージとオリジナルの研究論文を。これは、二変量の関係にとって非常に興味深いです。多変量関係の場合、射影追跡は非常に良い最初のステップです。
ただし、一般に、ドメインとデータの専門知識は、関係を迅速に調査するための方法を絞り込んで改善します。
PerformanceAnalyticsのchart.Correlation関数は、前述のplot.pairs関数@Stephen Turnerと同様の機能を提供しますが、線形モデルではなく黄土関数で平滑化することと、相関の重要性が異なります。
library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)