各データポイントが14の特性を含む455のデータポイントを含むデータセットの相関行列を計算しました。したがって、相関行列の次元は14 x 14です。
これらの2つの特性の間に有意な相関があることを示す相関係数の値にしきい値があるかどうか疑問に思っていました。
私は-0.2から0.85の範囲の値を持っています、そして私は重要なものは0.7を超えるものであると考えていました。
- しきい値と見なす必要がある相関係数の一般的な値はありますか、それとも、調査しているデータタイプに依存しているだけですか?
各データポイントが14の特性を含む455のデータポイントを含むデータセットの相関行列を計算しました。したがって、相関行列の次元は14 x 14です。
これらの2つの特性の間に有意な相関があることを示す相関係数の値にしきい値があるかどうか疑問に思っていました。
私は-0.2から0.85の範囲の値を持っています、そして私は重要なものは0.7を超えるものであると考えていました。
回答:
個々の相関に適用できる統計的有意性のテストがあります。これは、帰無仮説が真であると仮定して、サンプル相関よりも大きいまたは大きい相関が得られる確率を示します。
重要な点は、統計的に有意な相関係数を構成するものは次の要素に依存するということです。
ピアソンの相関を使用した両側検定を使用したアルファが.05であり、正規性が少なくとも適切な近似である一般的な状況では、カットオフに影響を与える主な要因はサンプルサイズです。
cor.test Rの相関の統計的有意性を計算します質問を解釈するもう1つの方法は、相関関係が統計的に有意であるかどうかではなく、実際に重要であるかどうかに関心があると考えることです。
一部の研究者は相関係数の意味を解釈するための経験則を提供していますが、これらの経験則はドメイン固有です。
@ user603が指摘したように、これらの問題はこの以前の質問で十分に議論されました。
一般的に、相関行列を解釈して、より高いレベルの構造に焦点を当てる場合に役立ちます。これは、相関行列の一般的なパターンを調べることにより、非公式な方法で実行できます。これは、PCAや因子分析などの手法を使用して、より正式に行うことができます。このようなアプローチにより、複数の有意差検定に関連する問題の多くが回避されます。
1つのオプションは、シミュレーションまたは置換テストです。データが由来する分布がわかっている場合は、その分布からシミュレーションできますが、すべての観測は独立しています。分布がわからない場合は、各変数を個別に並べ替えることができます。これにより、各変数の一般的な周辺分布は同じになりますが、相関関係は削除されます。
上記のいずれか(サンプルサイズと行列の次元を同じに保つ)を何回も(10,000程度)実行し、最大絶対相関、または関心のある別の高い変位値を調べます。これにより、帰無仮説からの分布が得られます。この仮説は、実際に観測された相関の最大値(および関心のある他の高い分位数)と比較できます。