変数間の関係を識別するためのRパッケージ[終了]


13

変数間に関係があるかどうかを調べるために使用できるRパッケージはありますか?

通常、パターンを探しているときは、相関関係を調べ、次にファセットプロットを調べます。次に、データ内の変数にいくつかの変換を手動で適用します。Rパッケージによってこのプロセスを加速できるかどうか疑問に思っていました。


独自のプロセスがある場合は、常に独自のパッケージをロールできます。または、スクリプトの最初にロードされたファイルの再利用可能な関数。
ブランドンバーテルセン

回答:


9

知らない もっと正確に言うと、単一の関数呼び出しで探索データ分析(EDA)と呼ばれるものの一部を行う単一のRパッケージについては知りません- 再表現啓示の側面を考えていますHoaglin、Mosteller and Tukey、Understanding Robust and Exploratory Data Analysisで説明されています。特に、Wiley-Interscience、1983年。

ただし、Rには、特にデータのインタラクティブな探索に関して、いくつかの気の利いた選択肢が存在します(興味深い議論については、こちらをご覧ください:インタラクティブなデータの視覚化はいつ使用すると便利ですか?)。私は考えることができます

  • iplots、またはその後継Acinonyxインタラクティブ可視化のために、(ブラッシングを可能に、リンクされたプロット、など)(これらの機能のいくつかはで見つけることができますlatticistパッケージ、最終的には、RGLは 3Dインタラクティブ可視化するのに最適です。)
  • データ削減(多次元スケーリング)および射影追跡を含む対話型および動的表示用のggobi

これは対話型のデータ探索のみを目的としていますが、これがEDAの本質だと思います。とにかく、上記の手法は、数値変数間の2変量または高次の関係を調べるときに役立ちます。カテゴリデータの場合、vcdパッケージが適切なオプションです(視覚化テーブルと概要テーブル)。次に、混合データ型の変数間の関係を調査するために、veganパッケージとade4パッケージが最初に来るよりもいいと思います。

最後に、Rでのデータマイニングについてはどうですか?(Rseekでこのキーワードを試してください)


(+1)質問に答えてくれてありがとう!
whuber

+1 Btw:ちょっとした誤字-Acinonyx(i&yは転置されます)。
イテレーター

@Iteratorタイプミスを見つけてくれてありがとう。(私はすでにあなたの応答に+1を付けました。ウィルキンソンの論文を引用したのは良いことです)。
-chl

2
現在loonwadella.github.io / loonもあり ます。これを指摘したクレジットは@hadleywickhamに送られます。
アリB.フリードマン

11

データセット内の変数がどのように相関しているかを簡単に確認したい場合は、psychパッケージのpairs()関数、またはさらに良いことにpairs.panels()関数を見てください。ここでペア関数について少し書きました。

pair()またはpsych :: pairs.panels()関数を使用すると、散布図行列を作成するのは非常に簡単です。

pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)

ここに画像の説明を入力してください


7

チェックアウトscagnosticsパッケージとオリジナルの研究論文を。これは、二変量の関係にとって非常に興味深いです。多変量関係の場合、射影追跡は非常に良い最初のステップです。

ただし、一般に、ドメインとデータの専門知識は、関係を迅速に調査するための方法を絞り込んで改善します。


7

PerformanceAnalyticschart.Correlation関数は、前述のplot.pairs関数@Stephen Turnerと同様の機能を提供しますが、線形モデルではなく黄土関数で平滑化することと、相関の重要性が異なります。

library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)

チャート


5

あなたは、相関関係を持つ作品、言及されていない、まだそれは便利ですかもしれ、ツールへの可能な変換を探している場合aceで見つけることができるacepackパッケージ(おそらく他のパッケージにも)。これにより、x変数のセットとy変数のセット間の相関を最大化するための変換を見つけるために、(スムーザーを使用して)さまざまな変換を試行するインタラクティブなプロセスが実行されます。変換をプロットすると、意味のある変換が示唆されます。


2

'energy'パッケージのDCOR関数を使用して、距離相関と呼ばれる非線形依存性の尺度を計算し、上記のようにプロットできます。ピアソンの相関の問題は、変数間の線形関係しか検出できないことです。言ったDCOR関数のインデックスの書き込みパラメーターを選択してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.