私が研究しているオンラインモジュールでは、ピアソン相関を比例データと一緒に使用してはならない、と述べています。何故なの?
または、それが時々大丈夫、または常に大丈夫な場合、なぜですか?
私が研究しているオンラインモジュールでは、ピアソン相関を比例データと一緒に使用してはならない、と述べています。何故なの?
または、それが時々大丈夫、または常に大丈夫な場合、なぜですか?
回答:
これは、各観測でいくつかの変数が1に合計される場合のケースです。私の答えは直感レベルです。これは意図的なものです(また、私は構成データの専門家ではありません)。
私たちはしているしてみましょうIID、我々は、その合計の割合としてまとめると、再計算(したがってゼロ相関)正の値を持つ変数を。そして、
each V summing to 1 ( 100%)
すみません?私はあなたを理解していませんでした。私は個々のVに制約を課さず、ほんの一部にすぎません。ただし、最初の制約は、私の例ではVsを分数に変換する前にゼロ相関を仮定することでした。
あなたのコメントのビデオリンクはのそれにコンテキストを設定組成物、とも呼ばれる混合物。これらの場合、各成分の比率の合計は1になります。たとえば、空気は窒素78%、酸素21%、その他1%です(合計は100%)。1つのコンポーネントの量は他のコンポーネントによって完全に決定されるので、どの2つのコンポーネントも完全な多重線形関係になります。空気の例では、次のようになります。
それで:
したがって、2つのコンポーネントがわかっていれば、3番目のコンポーネントはすぐにわかります。
一般に、混合物の制約は
2つのコンポーネント間の相関を計算できますが、それらは常に相関しているため、有益ではありません。組成分析の詳細については、比例組成として測定されたデータの分析をご覧ください。
比率データが異なるドメインのものである場合、相関を使用できます。あなたの応答がLCD画面上のデッドピクセルの割合であるとしましょう。これを、たとえば、スクリーンの化学処理ステップで使用されるヘリウムの割合と相関させることができます。
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
明確ではありません。拡張できますか?
これは深い質問であり、述べる必要のある微妙な問題があります。私は最善を尽くしますが、このトピック(比例:相対データの相関の有効な代替手段)を公開しましたが、相対情報のみを含むデータの分析に関する新しい洞察に常に驚かされる準備ができています。
このスレッドへの貢献者が指摘したように、コンポーネントのセットが定数になるように制約されたときに発生する構成データに適用されると、相関関係は(一部の円では)意味がないことで悪名高くなっています(比率、パーセンテージでわかるように、 100万分の1など)。
カールピアソンは、これを念頭に置いて偽の相関という用語を作り出しました。(注:Tyler Vigenの人気のあるSpurious Correlationサイトは、「相関は因果関係を暗示する」誤りであるため、スプリアス相関についてはそれほど多くありません。)
Aitchisonの(2003)構成データ分析の簡潔なガイドのセクション1.7 は、相関が構成データの関連付けの不適切な尺度である理由の典型的な例を示しています(便宜上、この補足情報で引用されています)。
構成データは、負でないコンポーネントのセットを合計して定数にする場合にのみ発生します。データは、相対的な情報のみを伝達する場合は常に構成的であると言われます。
相対的な情報しか持たないデータの相関に関する主な問題は、結果の解釈にあると思います。これは、1つの変数で説明できる問題です。世界の国々で「GDP 1ドルあたりのドーナツ」が生産されているとしましょう。ある国の価値が他の国よりも高い場合、それは
...誰が言えるの?
もちろん、このスレッドについて人々が言っているように、これらの種類の変数の相関関係を記述変数として計算できます。しかし、そのような相関関係はどういう意味ですか?
同じ質問がありました。私はbiorxivでこの参照が役に立ったと感じました:
Lovell D.、V。Pawlowsky-Glahn、J。Egozcue、S。Marguerat、J。Bähler(2014)、
「比例:相対データの相関の有効な代替手段」
この論文の補足情報(Lovell、David、その他; doi:dx.doi.org/10.1101/008417)で、著者らは、相対存在量間の相関関係が、場合によっては情報を提供しないことを述べています。それらは、2つのmRNA発現の相対的な量の例を示しています。図S2では、2つの異なるmRNAの相対存在量は、絶対値でのこれら2つのmRNAの相関が負の関係ではない(緑色の点と紫色の点)場合でも、完全に負の相関があります。
多分それはあなたを助けることができるでしょう。