比率データでピアソン相関を行うことができないのはなぜですか？

10

私が研究しているオンラインモジュールでは、ピアソン相関を比例データと一緒に使用してはならない、と述べています。何故なの？

または、それが時々大丈夫、または常に大丈夫な場合、なぜですか？

correlation proportion compositional-data

— user1205901-モニカの復活
ソース

3

これは何と言って、どのような状況で？彼らがいくつかの非常に限られた状況について話しているのでない限り、「決して」はあまりにも強く思えます。それを書いた人は誰でも単に間違っているかもしれませんが、文脈なしに私たちはどのように推測するのでしょうか？

— Glen_b-モニカを復元する

2

オンラインモジュールは独自仕様であり、リンクできません。ただし、同じことを述べている動画を見つけました：australianbioinformatics.net/the-pipeline/2013/3/19/…。私が見たモジュールとこのビデオの両方は、相関する比率が許容されるコンテキストがないことを示しています。

— user1205901-モニカを2014年

4

「決して」は強すぎます。比率を含む相関係数、特に小さいカウントに基づくものの解釈については注意が必要です。しかし、これらの理由をサポートする同じ分析は、比率が大きなカウントに基づいており、比率が

または

から「十分に離れている」場合、相関係数に問題がないことも示しています。さらに、ペアになっているデータのセット（両方のコンポーネントが変動を示す）の相関係数を、要約（記述）統計として常に報告できます。

0

$0$

1

$1$

— whuber

6

これは、各観測でいくつかの変数が1に合計される場合のケースです。私の答えは直感レベルです。これは意図的なものです（また、私は構成データの専門家ではありません）。

私たちはしているしてみましょうIID、我々は、その合計の割合としてまとめると、再計算（したがってゼロ相関）正の値を持つ変数を。そして、

$-1$
$1/2$ $1/2$ $-0.5$
$1/3$ $1/3$ $-0.333$
$0$

— ttnphns
ソース

OK、しかし、関心はV1とV2のペアにあると思います。各Vの合計は1（100％）ですが、個々のVに制約はなく、それぞれが分数です。

— Nick Cox

each V summing to 1 ( 100%)すみません？私はあなたを理解していませんでした。私は個々のVに制約を課さず、ほんの一部にすぎません。ただし、最初の制約は、私の例ではVsを分数に変換する前にゼロ相関を仮定することでした。

— ttnphns 2014年

各Vの値の合計が1（「垂直」）になるということですか？いいえ、変数全体で「水平方向」を意味しました。しかし、残念ながらOPは彼らの質問のポイントを解明しませんでした。それで私はそれをとったようにそれを取った。

— ttnphns 2014年

はい; つまり、ここで通常意味されることだと思いますが、質問は特に明確ではありません。

— Nick Cox

1

@ttnphns私は、ピアソン相関を比率として測定された2つの変数を実行してはならないという声明を見ました。OPを編集して「しない」という単語を強調表示することで、これをより明確にしようとしました。タイトルは同じですが（「プロポーションを相関させないでください！」）、これは構成データのコンテキストでのみ説明されています。私の出典では、ピアソン相関はどのような状況でも比率データに使用すべきではないと述べているため、私は意図的に状況を未定義のままにしました。しかし、私の質問への答えは、「一部の状況を除いて、プロポーションの関連付けは問題ありません」のようです。

— user1205901-モニカを2014年

10

あなたのコメントのビデオリンクはのそれにコンテキストを設定組成物、とも呼ばれる混合物。これらの場合、各成分の比率の合計は1になります。たとえば、空気は窒素78％、酸素21％、その他1％です（合計は100％）。1つのコンポーネントの量は他のコンポーネントによって完全に決定されるので、どの2つのコンポーネントも完全な多重線形関係になります。空気の例では、次のようになります。

$x_{1} + x_{2} + x_{3} = 1$

それで：

$x_{1} = 1 - x_{2} - x_{3}$

$x_{2} = 1 - x_{1} - x_{3}$

$x_{3} = 1 - x_{1} - x_{2}$

したがって、2つのコンポーネントがわかっていれば、3番目のコンポーネントはすぐにわかります。

一般に、混合物の制約は

$\sum_{i=1}^{q} x_{i} = 1$

$x_{i}$

2つのコンポーネント間の相関を計算できますが、それらは常に相関しているため、有益ではありません。組成分析の詳細については、比例組成として測定されたデータの分析をご覧ください。

比率データが異なるドメインのものである場合、相関を使用できます。あなたの応答がLCD画面上のデッドピクセルの割合であるとしましょう。これを、たとえば、スクリーンの化学処理ステップで使用されるヘリウムの割合と相関させることができます。

— ブラックネス
ソース

わかりました-私はその構成が単なる例であると誤って思っていました。したがって、構成が相関関係を「強制」する状況がない限り、相関比率は一般的に問題がないと言えるでしょうか？

— user1205901-モニカを2014年

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship

明確ではありません。拡張できますか？

— ttnphns 2014年

私もこの答えを理解していません。3変数の例では、それぞれが2つの他の変数によって「決定」されますが、ピアソン相関は1つの変数と他の1つの変数との関係のみを分析します。したがって、たとえば、窒素と酸素を比較すると、（窒素、酸素）データセット[（0.78、0.21）、（0.20、0.41）、（0.44、0.44）]があり、有効な相関係数を実行できます。そのデータの計算（そしてそれは確かに同一直線上にはありません）。ピアソン相関係数は「その他」を知らないか、気にしません...

— Jason C

3

一種のメタコメントとして、私は統計的ポイントの権威として引用されたアクセスできない資料を見ることを期待しません、あなたがそうすることを提案しているのではありません。したがって、それは1つのレベルで単純です。構成データ分析に関する文献があります。私は専門家ではないので、相関関係で最も信頼できるものは言えませんが、私の本能は警告が誇張されているということです。相関の説明的な使用が役立つ場合があります。総計の制約によって推論が複雑になるだけです。

— Nick Cox

同じピクセル数のLCD画面から測定値を収集し、プロセス内のガス圧を一定に保つ場合、「デッドピクセルの割合」は問題ないと思います。しかし、これらの比率の分母の変更を許可し始めると、ヘリウムの影響は何と言えますか？

— David Lovell

5

これは深い質問であり、述べる必要のある微妙な問題があります。私は最善を尽くしますが、このトピック（比例：相対データの相関の有効な代替手段）を公開しましたが、相対情報のみを含むデータの分析に関する新しい洞察に常に驚かされる準備ができています。

このスレッドへの貢献者が指摘したように、コンポーネントのセットが定数になるように制約されたときに発生する構成データに適用されると、相関関係は（一部の円では）意味がないことで悪名高くなっています（比率、パーセンテージでわかるように、 100万分の1など）。

カールピアソンは、これを念頭に置いて偽の相関という用語を作り出しました。（注：Tyler Vigenの人気のあるSpurious Correlationサイトは、「相関は因果関係を暗示する」誤りであるため、スプリアス相関についてはそれほど多くありません。）

Aitchisonの（2003）構成データ分析の簡潔なガイドのセクション1.7 は、相関が構成データの関連付けの不適切な尺度である理由の典型的な例を示しています（便宜上、この補足情報で引用されています）。

構成データは、負でないコンポーネントのセットを合計して定数にする場合にのみ発生します。データは、相対的な情報のみを伝達する場合は常に構成的であると言われます。

相対的な情報しか持たないデータの相関に関する主な問題は、結果の解釈にあると思います。これは、1つの変数で説明できる問題です。世界の国々で「GDP 1ドルあたりのドーナツ」が生産されているとしましょう。ある国の価値が他の国よりも高い場合、それは

彼らのドーナツ生産はより高いですか？
彼らのGDPは低いですか？

...誰が言えるの？

もちろん、このスレッドについて人々が言っているように、これらの種類の変数の相関関係を記述変数として計算できます。しかし、そのような相関関係はどういう意味ですか？

— デビッド・ロヴェル
ソース

3

同じ質問がありました。私はbiorxivでこの参照が役に立ったと感じました：

Lovell D.、V。Pawlowsky-Glahn、J。Egozcue、S。Marguerat、J。Bähler（2014）、
「比例：相対データの相関の有効な代替手段」

この論文の補足情報（Lovell、David、その他; doi：dx.doi.org/10.1101/008417）で、著者らは、相対存在量間の相関関係が、場合によっては情報を提供しないことを述べています。それらは、2つのmRNA発現の相対的な量の例を示しています。図S2では、2つの異なるmRNAの相対存在量は、絶対値でのこれら2つのmRNAの相関が負の関係ではない（緑色の点と紫色の点）場合でも、完全に負の相関があります。

多分それはあなたを助けることができるでしょう。

— 訴える
ソース

2

あなたの提案をありがとう。はっきりさせませんでした。この論文の情報を裏付ける際に（Lovell、David、et al。; doi：dx.doi.org/10.1101/008417）、著者は、相対的な存在量間の相関関係は、いくつかのケースでは何の情報も提供しないと述べています。それらは、2つのmRNA発現の相対的な量の例を示します。図S2では、絶対値での2つのmRNAの相関が負ではない（緑色の点と紫色の点）場合でも、2つの異なるmRNAの相対存在量は完全に負の相関があります。

— スー・

@shu多分あなたは、なぜこの記事が同様の問題であなたを助け、それを要約したのかを言うことができますか？リンクの貼り付けは答えではないので、もう少し詳しく説明してください。その理由は、リンクが死ぬためであり、あなたの答えが将来誰かのために役立つようにしたいなら、あなたはそれを自己矛盾のないものにすべきです。もちろん、回答への参照を追加することは良い習慣です。

— Tim