ピアソン相関の前にビニングデータは有効ですか?


8

データをビンに入れ、ビンの平均を計算し、これらの平均に基づいてピアソン相関係数を導出することは許容されますか?(データを母集団のサンプルとして考える場合)これらの平均の散布は平均の標準誤差であり、が大きい場合は非常にきついので、私にはやや怪しい手順のようです。したがって、おそらく、プライマリデータよりもはるかに優れた相関係数が得られますが、それは間違っているようです。一方、相関計算の前に反復測定を平均化することはよくありますが、それほど大きな違いはありません。n


1
この特定のケースでビニングの目的は何ですか?
2013年

2
ビニングされた変数間の関係を直接見たい場合を除き、相関の前にビニングすることには明らかなポイントはありません。
Nick Cox

11
連続するデータをビニングして相関を計算することは、足を切断して松葉づえを取得するようなものです。
Peter Flom

2
私の推測では、ビニングは相関関係を実際よりも見栄えよくするために行われたと思います。一次データは相関性が不十分でしたが、ビニングして平均化すると、はるかに良く見えました。各ビンの平均値には小さな標準誤差(各ビンに数百のポイントがあった)があるため、平均値は明らかに美しい相関を与えると思います。
James

3
なぜそこに止まるのですか?2つのビンを使用するだけで、常に%の相関係数を得ることができます:-)。対照的に、レプリケート測定の平均化、データ動作の異なるモデルを呼び出し、異なる推論(レプリケート自体ではなくレプリケートの期待について)につながるため、異なります。100
whuber

回答:


1

あなたの質問とまったく同じではありませんが、関連するノートで、2つの変数のデータセットがかなりきれいであることを示した記事(2000年から2003年の間に、American StatisticianまたはChance誌のいずれか)を読んだことを覚えています多くの無相関は、「予測子」変数をビンに入れる方法を見つけることができます。次に、各ビン内の応答変数の平均を取り、ビンの方法に応じて、テーブルまたは単純なプロットで正の関係または負の関係を示します。


3
あなたが言及している優れた記事は、@ Article {wai06fin、著者= {Wainer、Howard}、タイトル= {不運な結果のビニングを通じてそこにないものを見つける:{The} {Mendel}効果}、ジャーナル= {Chance}、年= 2006、ボリューム= 19、数= 1、ページ= {49-56}、注釈= {正または負の関連を生成するビンを見つけることができます;特に効果が小さい場合に関連します; `` 4つのパラメーターを使用して、象; 5つあれば、トランクを小刻みに動かすことができる」-ジョン・フォン・ノイマン}}
フランク・ハレル

@FrankHarrell、参照してくれてありがとう、数年前のことを思い出しました。
Greg Snow、

0

2つの変数(Y i)を考えてみましょう。データをbinし、X iで「bin」すると、同じX iに対して測定を繰り返して、対応するY i値を取得することを意味しますか?このような測定を繰り返すと、平均の誤差はとともに減少しますXiYiXiXiYi、そして私はあなたがそれで好きなことを何でも自由にできると思います。非常に異なる誤差範囲を持つデータポイントを検討する場合は、加重相関係数を使用していることを確認してください。n

今、私たちはあなたがの測定繰り返されていないとしましょう、代わりに考慮X I ± δと対応するY I ± δ "にし、ビニングをδとしてビニング値取得δを。この状況での解決策は、ビンのサイズ、測定の誤差、相関の傾きの間の関係に依存すると思います。δδ ´の両方が小さい場合、状況は前の段落と同様になると思います。それ以外の場合は、ビンに入れるかどうかにかかわらず、利点がある場合があります。cov(ため、結果が変わりますXiXi±δYi±δδδδδ´ Yをiはbはiがn個Xi,bin、)は、ビニングされていない値のそれとは異なりますが、それを行うことは依然として有効だと思います。私はあなたが仮定を破っていないと思います。私はそうすることが有利であることを確認し、順列検定を通じてその有意性をテストします(係数分布についての仮定を行わないようにするため)。Yi,bin


3
私があなたが書いたことを理解できる唯一の方法は、誰かがあまりにも多くの時間を持っており、一日の時間だけを通過したいのであれば、これは街頭犯罪よりも優れているということです。
フランクハレル

-1

データをビニングする主な理由は、変数間の非線形関係の可能性を考慮に入れるためです。ピアソン相関は線形関連の強さを測定するため、関係が非線形の場合はうまく機能しません。

この問題を処理するには、ビニングよりも明らかに優れた方法があります。たとえば、非線形または局所回帰モデルを当てはめ、予測応答値と実際の応答値を相関させることができます(ただし、相関は対称的であるのに対して、予測子応答アプローチが有効であると想定しています)。ビニングは、統計の背景や統計ツールを持たない人々が使用する可能性のある非線形性の問題を解決するための単なる方法です。


3
ビニングには、非線形の関係を見つけるのに役立つことはまったくありません。
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.