データをビンに入れ、ビンの平均を計算し、これらの平均に基づいてピアソン相関係数を導出することは許容されますか?(データを母集団のサンプルとして考える場合)これらの平均の散布は平均の標準誤差であり、が大きい場合は非常にきついので、私にはやや怪しい手順のようです。したがって、おそらく、プライマリデータよりもはるかに優れた相関係数が得られますが、それは間違っているようです。一方、相関計算の前に反復測定を平均化することはよくありますが、それほど大きな違いはありません。
データをビンに入れ、ビンの平均を計算し、これらの平均に基づいてピアソン相関係数を導出することは許容されますか?(データを母集団のサンプルとして考える場合)これらの平均の散布は平均の標準誤差であり、が大きい場合は非常にきついので、私にはやや怪しい手順のようです。したがって、おそらく、プライマリデータよりもはるかに優れた相関係数が得られますが、それは間違っているようです。一方、相関計算の前に反復測定を平均化することはよくありますが、それほど大きな違いはありません。
回答:
あなたの質問とまったく同じではありませんが、関連するノートで、2つの変数のデータセットがかなりきれいであることを示した記事(2000年から2003年の間に、American StatisticianまたはChance誌のいずれか)を読んだことを覚えています多くの無相関は、「予測子」変数をビンに入れる方法を見つけることができます。次に、各ビン内の応答変数の平均を取り、ビンの方法に応じて、テーブルまたは単純なプロットで正の関係または負の関係を示します。
2つの変数(、Y i)を考えてみましょう。データをbinし、X iで「bin」すると、同じX iに対して測定を繰り返して、対応するY ′ i値を取得することを意味しますか?このような測定を繰り返すと、平均の誤差は√とともに減少します、そして私はあなたがそれで好きなことを何でも自由にできると思います。非常に異なる誤差範囲を持つデータポイントを検討する場合は、加重相関係数を使用していることを確認してください。
今、私たちはあなたがの測定繰り返されていないとしましょう、代わりに考慮X I ± δと対応するY I ± δ "にし、ビニングをδとしてビニング値取得δを。この状況での解決策は、ビンのサイズ、測定の誤差、相関の傾きの間の関係に依存すると思います。δとδ ´の両方が小さい場合、状況は前の段落と同様になると思います。それ以外の場合は、ビンに入れるかどうかにかかわらず、利点がある場合があります。cov(ため、結果が変わります Yをiは、bはiがn個、)は、ビニングされていない値のそれとは異なりますが、それを行うことは依然として有効だと思います。私はあなたが仮定を破っていないと思います。私はそうすることが有利であることを確認し、順列検定を通じてその有意性をテストします(係数分布についての仮定を行わないようにするため)。
データをビニングする主な理由は、変数間の非線形関係の可能性を考慮に入れるためです。ピアソン相関は線形関連の強さを測定するため、関係が非線形の場合はうまく機能しません。
この問題を処理するには、ビニングよりも明らかに優れた方法があります。たとえば、非線形または局所回帰モデルを当てはめ、予測応答値と実際の応答値を相関させることができます(ただし、相関は対称的であるのに対して、予測子応答アプローチが有効であると想定しています)。ビニングは、統計の背景や統計ツールを持たない人々が使用する可能性のある非線形性の問題を解決するための単なる方法です。