相関行列の相関の統計的有意性を示す相関係数のしきい値

10

各データポイントが14の特性を含む455のデータポイントを含むデータセットの相関行列を計算しました。したがって、相関行列の次元は14 x 14です。

これらの2つの特性の間に有意な相関があることを示す相関係数の値にしきい値があるかどうか疑問に思っていました。

私は-0.2から0.85の範囲の値を持っています、そして私は重要なものは0.7を超えるものであると考えていました。

しきい値と見なす必要がある相関係数の一般的な値はありますか、それとも、調査しているデータタイプに依存しているだけですか？

correlation statistical-significance multiple-comparisons

— サイモン
ソース

1

stats.stackexchange.com/questions/5750/…を確認しましたか？

— user603

@ user603良い点：実質的に同じ質問です。ここでの革新は、有意な相関のテストが「データタイプ」に依存するかどうかを確認することです（読み取り：データ分布）。返信が古い側面を通過するのではなく、この側面に焦点を当てることを期待しましょう。

— whuber

8

相関の有意性検定

個々の相関に適用できる統計的有意性のテストがあります。これは、帰無仮説が真であると仮定して、サンプル相関よりも大きいまたは大きい相関が得られる確率を示します。

重要な点は、統計的に有意な相関係数を構成するものは次の要素に依存するということです。

サンプルサイズ：サンプルサイズが大きいほど、しきい値が小さくなる
alpha：多くの場合.05に設定され、アルファが小さいほど統計的有意性のしきい値が高くなります
片側/両側検定：両側検定を使用すると思いますので、これはおそらく問題ではありません
相関係数のタイプ：あなたはピアソンのものを使用していると思います
xとyの分布仮定

ピアソンの相関を使用した両側検定を使用したアルファが.05であり、正規性が少なくとも適切な近似である一般的な状況では、カットオフに影響を与える主な要因はサンプルサイズです。

こちらがオンライン計算機です
cor.test Rの相関の統計的有意性を計算します

重要度のしきい値

質問を解釈するもう1つの方法は、相関関係が統計的に有意であるかどうかではなく、実際に重要であるかどうかに関心があると考えることです。

一部の研究者は相関係数の意味を解釈するための経験則を提供していますが、これらの経験則はドメイン固有です。

多重有意性検定

$k(k-1)/2$ $k$ $14(13)/2=91$ $91 * .05 = 4.55$

@ user603が指摘したように、これらの問題はこの以前の質問で十分に議論されました。

一般的に、相関行列を解釈して、より高いレベルの構造に焦点を当てる場合に役立ちます。これは、相関行列の一般的なパターンを調べることにより、非公式な方法で実行できます。これは、PCAや因子分析などの手法を使用して、より正式に行うことができます。このようなアプローチにより、複数の有意差検定に関連する問題の多くが回避されます。

— ジェロミー・アングリム
ソース

1

1つのオプションは、シミュレーションまたは置換テストです。データが由来する分布がわかっている場合は、その分布からシミュレーションできますが、すべての観測は独立しています。分布がわからない場合は、各変数を個別に並べ替えることができます。これにより、各変数の一般的な周辺分布は同じになりますが、相関関係は削除されます。

上記のいずれか（サンプルサイズと行列の次元を同じに保つ）を何回も（10,000程度）実行し、最大絶対相関、または関心のある別の高い変位値を調べます。これにより、帰無仮説からの分布が得られます。この仮説は、実際に観測された相関の最大値（および関心のある他の高い分位数）と比較できます。

— グレッグ・スノー
ソース

0

$n^{-2}$ $n$ $corr >> n^{-2}$

— Hrobjartur
ソース