変数間の関係の調査は非常にあいまいですが、このように散布図を調べることのより一般的な2つの目標は、私が推測するとおりです。
- (変数またはケースの)潜在グループを特定します。
- 外れ値を特定します(一変量、二変量、または多変量空間)。
どちらもデータをより扱いやすい要約にまとめますが、目的は異なります。潜在的なグループを特定すると、通常、データの次元が減少し(PCAなどを介して)、変数またはケースがこの減少したスペースに集まっているかどうかを調べます。たとえば、Friendly(2002)またはCook et al。を参照してください。(1995)。
外れ値を特定することは、モデルをフィッティングしてモデルからの偏差をプロットする(たとえば、回帰モデルからの残差をプロットする)か、データをその主要コンポーネントに削減し、モデルまたはデータの本体のいずれかから逸脱するポイントのみを強調表示することを意味します。たとえば、1次元または2次元の箱ひげ図は、通常、ヒンジの外側にある個々の点のみを表示します(Wickham&Stryjewski、2013)。残差のプロットには、プロットを平坦化するという優れた特性があるため(Tukey、1977)、残りの点群の関係の証拠はすべて「興味深い」ものです。CVに関するこの質問には、多変量異常値を特定するためのいくつかの優れた提案があります。
このような大きなSPLOMSを探索する一般的な方法は、個々の点のすべてをプロットするのではなく、あるタイプの簡略化された要約、そしておそらくこの要約から大きく逸脱する点、たとえば信頼楕円、診断の要約(Wilkinson&Wills、2008)、2変量箱ひげ図、等高線図。以下は、共分散を定義する楕円をプロットし、線形の関連性を説明するために、より滑らかなレスを重ね合わせた例です。
(ソース:statmethods.net)
どちらの方法でも、非常に多くの変数を含む実際に成功したインタラクティブなプロットには、インテリジェントな並べ替え(Wilkinson、2005)と、変数をフィルタリングする簡単な方法(ブラッシング/リンク機能に加えて)が必要になる可能性があります。また、現実的なデータセットには、軸を変換する機能が必要です(たとえば、対数スケールでデータをプロットする、根を取ることによってデータを変換するなど)。頑張ってください、そして1つのプロットだけに固執しないでください!
引用