変数間の関係を識別するためのRパッケージ[終了]

13

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。

この質問を改善したいですか？ 質問を更新することがありますので、話題のクロス検証済みのため。

4年前に閉鎖されました。

変数間に関係があるかどうかを調べるために使用できるRパッケージはありますか？

通常、パターンを探しているときは、相関関係を調べ、次にファセットプロットを調べます。次に、データ内の変数にいくつかの変換を手動で適用します。Rパッケージによってこのプロセスを加速できるかどうか疑問に思っていました。

r data-visualization correlation eda

— セレニウス
ソース

独自のプロセスがある場合は、常に独自のパッケージをロールできます。または、スクリプトの最初にロードされたファイルの再利用可能な関数。

— ブランドンバーテルセン

9

知らないもっと正確に言うと、単一の関数呼び出しで探索データ分析（EDA）と呼ばれるものの一部を行う単一のRパッケージについては知りません- 再表現と啓示の側面を考えていますHoaglin、Mosteller and Tukey、Understanding Robust and Exploratory Data Analysisで説明されています。特に、Wiley-Interscience、1983年。

ただし、Rには、特にデータのインタラクティブな探索に関して、いくつかの気の利いた選択肢が存在します（興味深い議論については、こちらをご覧ください：インタラクティブなデータの視覚化はいつ使用すると便利ですか？）。私は考えることができます

iplots、またはその後継Acinonyxインタラクティブ可視化のために、（ブラッシングを可能に、リンクされたプロット、など）（これらの機能のいくつかはで見つけることができますlatticistパッケージ、最終的には、RGLは 3Dインタラクティブ可視化するのに最適です。）
データ削減（多次元スケーリング）および射影追跡を含む対話型および動的表示用のggobi

これは対話型のデータ探索のみを目的としていますが、これがEDAの本質だと思います。とにかく、上記の手法は、数値変数間の2変量または高次の関係を調べるときに役立ちます。カテゴリデータの場合、vcdパッケージが適切なオプションです（視覚化テーブルと概要テーブル）。次に、混合データ型の変数間の関係を調査するために、veganパッケージとade4パッケージが最初に来るよりもいいと思います。

最後に、Rでのデータマイニングについてはどうですか？（Rseekでこのキーワードを試してください）

— chl
ソース

（+1）質問に答えてくれてありがとう！

— whuber

+1 Btw：ちょっとした誤字-Acinonyx（i＆yは転置されます）。

— イテレーター

@Iteratorタイプミスを見つけてくれてありがとう。（私はすでにあなたの応答に+1を付けました。ウィルキンソンの論文を引用したのは良いことです）。

— -chl

2

現在loon、wadella.github.io / loonもあります。これを指摘したクレジットは@hadleywickhamに送られます。

— アリB.フリードマン

11

データセット内の変数がどのように相関しているかを簡単に確認したい場合は、psychパッケージのpairs（）関数、またはさらに良いことにpairs.panels（）関数を見てください。ここでペア関数について少し書きました。

pair（）またはpsych :: pairs.panels（）関数を使用すると、散布図行列を作成するのは非常に簡単です。

pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)

ここに画像の説明を入力してください

— スティーブンターナー
ソース

7

チェックアウトscagnosticsパッケージとオリジナルの研究論文を。これは、二変量の関係にとって非常に興味深いです。多変量関係の場合、射影追跡は非常に良い最初のステップです。

ただし、一般に、ドメインとデータの専門知識は、関係を迅速に調査するための方法を絞り込んで改善します。

— イテレータ
ソース

7

PerformanceAnalyticsのchart.Correlation関数は、前述のplot.pairs関数@Stephen Turnerと同様の機能を提供しますが、線形モデルではなく黄土関数で平滑化することと、相関の重要性が異なります。

library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)

チャート

— ザック
ソース

5

あなたは、相関関係を持つ作品、言及されていない、まだそれは便利ですかもしれ、ツールへの可能な変換を探している場合aceで見つけることができるacepackパッケージ（おそらく他のパッケージにも）。これにより、x変数のセットとy変数のセット間の相関を最大化するための変換を見つけるために、（スムーザーを使用して）さまざまな変換を試行するインタラクティブなプロセスが実行されます。変換をプロットすると、意味のある変換が示唆されます。

— グレッグ・スノー
ソース

2

'energy'パッケージのDCOR関数を使用して、距離相関と呼ばれる非線形依存性の尺度を計算し、上記のようにプロットできます。ピアソンの相関の問題は、変数間の線形関係しか検出できないことです。言ったDCOR関数のインデックスの書き込みパラメーターを選択してください。

— 霊柩車
ソース