Goodman-KruskalガンマとKendall tauまたはSpearman rho相関はどのように比較されますか?


31

私の仕事では、いくつかのデータセットについて、予測されたランキングと実際のランキングを比較しています。最近まで、Kendall-Tauを単独で使用していました。同様のプロジェクトに取り組んでいるグループは、代わりにGoodman-Kruskal Gammaを使用しようとし、彼らがそれを好むことを提案しました。ランクの異なる相関アルゴリズムの違いは何なのかと思いまして。

私が見つけた最高の答えは、スピアマンが通常の線形相関の代わりに使用され、ケンドール-タウは直接的ではなく、グッドマン-クラスカルガンマにより似ていると主張するこの答えでした。私が使用しているデータには、明らかな線形相関はないようです。また、データは大きく歪んでおり、正常ではありません。

また、スピアマンは通常、データについてケンドール・タウよりも高い相関性を報告しており、データについて具体的に何を言っているのか疑問に思っていました。私は統計学者ではないので、これらのことについて読んでいる論文のいくつかは、私には専門用語のように見えます、ごめんなさい。


3
私たちのデータに関して、スピアマンは一般的にケンドール・タウよりも良い相関を報告し、データについて具体的に何を言っているのだろうと思っていました。相関関係が実際にまたは近くない場合、Kendallは多くの場合、Spearmanのより0に近くなります。通常、大きさが小さいという事実は、スピアマン相関が「より良い」という意味ではありません。彼らは単にデータについて異なることを測定しているだけです。何があなたが「より良い相関」と言うように導くでしょうか?ρ 0 ± 1τρ0±1
Glen_b-モニカを

1
それは私の質問、@ Glen_bと間接的に同じでした。ただし、アルゴリズムがより高い相関を報告した理由と、その原因は何かを尋ねていました。私の意味をもう少し明確にするために、「より良い」から「より高い」に変更します。あなたは彼らが異なることを測定し、数字がお互いにあまり関係がないことは正しいですが、数字が実際に何を意味していたのか知​​りたいと思いました。
ポイック14

回答:


29

スピアマンロー対ケンドールタウ。これら2つは計算上非常に異なるため、それらの大きさを直接比較することはできません。スピアマンは通常1/4から1/3だけ高く、これにより、スピアマンは特定のデータセットに対して「より良い」と誤って結論付けられます。rhoとtauの違いは、イデオロギー、rhoの分散比、tauの確率にあります。Rhoは、ランク付けされたデータに適用される通常のピアソンrであり、rと同様に、小さなモーメントの点よりも大きなモーメントの点(つまり、雲の中心からの偏差)に敏感です。したがって、rhoはランキング後の雲の形状に非常に敏感です。done:楕円形の菱形雲の係数は、楕円形のダンベル型雲の係数よりも高くなります(最初の鋭いエッジが大きなモーメントであるため)。TauはGammaの拡張であり、すべてのデータポイントに対して等しく敏感であるため、ランク付けされたクラウドの形状の特異性に対してそれほど敏感ではありません。Tauはrhoよりも「一般的」です。なぜなら、rhoは、変数間の基礎となる(モデル、または母集団の機能)関係が厳密に単調であると考えられる場合にのみ保証されるためです。タウは非単調な基礎曲線を許容し、正または負の単調な「傾向」が全体に広がっている測定値です。Rhoは、大きさがrと同等です。タウは違います。

ガンマとしてのケンドールタウ。タウはガンマの標準化された形式です。いくつかの関連するメジャーにはすべて分子がありますが、正規化分母が異なります。PQ

  • ガンマ:P+Q
  • Somers 'D( "x dependent"):P+Q+Tx
  • Somers 'D( "y dependent"):P+Q+Ty
  • Somers 'D( "symmetric"):上記2つの算術平均
  • ケンドールのタウb corr。(正方形テーブルに最適):これら2つの幾何平均
  • ケンドールのTau-c corr。(長方形テーブルに最適):N2(k1)/(2k)
  • ケンドールのタウ・コア。(タイの調整なし):N(N1)/2=P+Q+Tx+Ty+Txy

ここで、「一致」のある観測値のペアの数、「反転」のある観測値のペアの数。変数Xによるタイの数、変数Yによる、 -両方の変数による。観測値の数、この数値が小さい変数の個別値の数。Q T x T y T x y N kPQTxTyTxyNk

したがって、タウは理論と大きさにおいてガンマと直接匹敵します。Rhoは、理論と大きさにおいてPearsonと直接比較できます。ここでのニック・スタウナーのいい答えは、ローとタウを間接的に比較する方法を示しています。r

タウとローについても参照してください


14

理論的理由からスピアマンのに対するモーリス・ケンドールのを提唱したアンドリュー・ギルピン(1993)からの引用は次のとおりです。τρ

【ケンドールの ]は、より迅速に正規分布に近づくとして、、サンプルサイズ、増加します。また、は数学的に、特にタイが存在する場合、より扱いやすくなります。 τρNτ

私は、グッドマン・クラスカルのについて多くを追加することはできません、Kendallのよりこれまで、それほどわずかに大きく見積もり生産するらしいということ以外著しく、最近私が取り組んできた調査データのサンプル中に...そしてもちろんスピアマンのよりも低い推定値。ただし、2つの部分的な推定値も計算してみました(Foraita&Sobotka、2012)。それらは、部分的なよりも部分的な近づきました...かなりの処理時間がかかりましたので、そのままにします。シミュレーションテストまたは他の誰かとの数学的比較...(その方法を知っている人は...)γτργρτ

以下のようttnphnsは意味、あなたはあなたと結論づけることはできませんの推定値がより良いあなたよりもそのスケールは(制限がないにもかかわらず)異なるため、単独の大きさを推定します。ギルピンは、ケンドール(1962)を、ほとんどの値の範囲でと比が約1.5になると説明しています。マグニチュードが増加するにつれて徐々に近づいていくため、両方が1(または-1)に近づくと、差は無限になります。ギルピンは、 3桁目までの、、、d、およびの等価値の素敵な大きなテーブルを提供しますρτρτρrr2Zrτその範囲全体で.01の増分ごとに、イントロ統計の教科書の表紙の内側を見るのと同じように。彼は、以下のようなケンドールの特定の数式に基づいてこれらの値を決定しました。 (私はこの式を簡略化からギルピンが書いたフォーム、それはピアソンのに関してでした。)

r=sin(τπ2)ρ=6π(τarcsin(sin(τπ2)2))
ρr

に変換τρし、計算の変化がエフェクトサイズの見積もりにどのように影響するかを確認するのが理にかなっているかもしれません。比較により、スピアマンのがより敏感な問題がデータに存在する場合、その程度がある程度示されるようです。特定の問題を個別に識別するためのより直接的な方法が確実に存在します。私の提案は、これらの問題に対してより迅速で汚いオムニバスエフェクトサイズをより多く生成します。差がない場合(スケールの差を補正した後)、のみ適用される問題をさらに調べる必要はないと主張するかもしれません。ρρ。実質的な違いがある場合は、おそらく拡大レンズを取り外して、何が原因であるかを判断します。

ケンダルのを使用した場合に人々が通常どのように効果サイズを報告するかはわかりません(残念ながら、一般的に効果サイズの報告を心配する限られた範囲まで)が、慣れていない読者はピアソンのスケールで解釈しようとする可能性が高いため、両方報告するのが賢明かもしれませんあなたのの規模で統計とその効果の大きさを上記の変換式を使用して...またはスケールの違いうち少なくともポイントと彼の便利な変換テーブルのためギルピンに叫びを与えます。τrτr

参照資料

Foraita、R.、&Sobotka、F.(2012)。グラフィカルモデルの検証。 gmvalidパッケージ、v1.23。 包括的なRアーカイブネットワーク。URL:http : //cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

ギルピン、アーカンソー(1993)。メタ分析の効果の大きさのコンテキスト測定値内でのケンドールのタウからスピアマンのローへの変換の表。 教育的および心理的測定、53(1)、87-92。

ケンドール、MG(1962)。 ランク相関法(第3版)。ロンドン:グリフィン。


9

これらはすべて単調な関連付けの優れたインデックスです。スピアマンのは、観測値のランダムなトリプレット間の多数一致の確率に関連しており、(ケンドール)および(グッドマン-クラスカル)はペアワイズ一致に関連しています。と選択する際の主な決定は、および/または同点に対してペナルティを科すかどうかです。 はどちらの関係にもペナルティを課しません。したがって、予測におけるとの予測能力の比較は、 1つに報酬を与えません。ρτγγτXYγX1X2YXより連続的であるため。この報酬がないため、モデルベースの尤度比テストと少し矛盾します。強く結び付けられた(たとえば、バイナリ)は、高い持つことができます。XXγ


2
フランク、Spearman's ρ is related to the probability of majority concordance among random triplets of observations可能であれば数学的に難しいことではなく、もっと詳しく説明してもらえますか?ありがとう。
ttnphns

1
私はそれを何年も前に、おそらくノンパラメトリック統計テキストで読んだ。参照が見つかりませんでした。
フランクハレル

1
不幸なことに... :-(声明自体が非常に興味深いからです。
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.