ランク付けされたデータ(スピアマン相関)の回帰直線をプロットすることは「大丈夫」ですか?


11

スピアマン相関を計算したデータがあり、それを出版物のために視覚化したいと思います。従属変数はランク付けされますが、独立変数はランク付けされません。視覚化したいのは、実際の勾配よりも一般的な傾向なので、独立性をランク付けし、スピアマンの相関/回帰を適用しました。しかし、自分のデータをプロットし、それを自分の原稿に挿入しようとしたとき、私は(このWebサイトで)このステートメントに出くわしました。

スピアマンの順位相関を行う場合、説明や予測に回帰直線を使用することはほとんどないため、回帰直線に相当する値を計算しないでください

以降

線形回帰または相関の場合と同じ方法で、スピアマンの順位相関データをグラフ化できます。ただし、グラフに回帰直線を置かないでください。ランク相関で分析した場合、グラフに線形回帰直線を配置すると誤解を招く恐れがあります。

問題は、回帰直線は、独立をランク付けしてピアソン相関を計算しない場合とそれほど変わらないということです。傾向は同じですが、ジャーナルのカラーグラフィックの法外な料金のために、モノクロ表現で行ったので、実際のデータポイントがあまりにも重なりすぎて認識できません。

もちろん、これを回避するには、2つの異なるプロットを作成します。1つはデータポイント(ランク付け)、もう1つは回帰直線(ランク付けなし)ですが、引用したソースが間違っているか問題であることが判明した場合私の場合はそれほど問題ではありませんが、それは私の人生を楽にします。(私もこの質問を見ましたが、それは私を助けませんでした。)

追加情報を編集:

x軸の独立変数はフィーチャの数を表し、y軸の従属変数は分類アルゴリズムがパフォーマンスで比較された場合のランクを表します。これで、平均的に比較できるアルゴリズムがいくつかありますが、プロットで言いたいのは、「分類子Aはより多くの特徴が存在するほど良くなり、分類子Bはより少ない特徴が存在するときに良くなる」のようなものです。

2を編集してプロットを含めます。

プロットされたアルゴリズムのランクと特徴の数 ここに画像の説明を入力してください

プロットされたアルゴリズムのランクとランク付けされた機能の数 ここに画像の説明を入力してください

したがって、タイトルから質問を繰り返すには:

スピアマンの相関/回帰のランク付けされたデータの回帰直線をプロットしても問題ありませんか?


ランクにはいくつのカテゴリーがありますか?比例仮定をテストしましたか?序数データ(たとえば、ランキング)を継続的として扱うことに完全に精通している多くの研究者がいます。カテゴリがたくさんある場合、それは理にかなっています。
robin.datadrivers 2015年

1
7つのランクがあり、フリードマンテストに使用されます
Sentry

1
プロットのグラフを含めることはできますか?
robin.datadrivers 2015年

公開予定の実際のデータを編集した後、今日アップロードします。
Sentry

回答:


9

ランク相関を使用して、注意するように変量間の単調な関連をピックアップできます。そのため、通常はそのための線をプロットしません。

KendallやSpearman(またはその他)にかかわらず、ランク相関を使用して実際に行をnumeric-yとnumeric-xに合わせることが完全に理にかなっている状況があります。ここの議論(特に最後のプロット)を参照してください

しかし、それはあなたの状況ではありません。あなたの場合、おそらくスムーズな関係で(たとえば、LOESSによって)元のデータの散布図を提示する傾向があります。

あなたはその関係が単調であることを期待しています。単調な関係を推定してプロットしようとするかもしれません。[ ここでは、等張回帰に適合するR関数について説明します。等張ではない単峰性がある例では、関数は等張適合を行うことができます。]

これが私が意味する種類の例です:

ここに画像の説明を入力してください

プロットは、xとyの間の単調な関係を示しています。赤い曲線はscatter.smoothレススムース(この場合はR byで生成されます)であり、これも偶然に単調になります(単調であることが保証されているスムースフィットを取得する方法はありますが、この場合、デフォルトのレススムースは単調なので、心配する必要はなかった。

ここに画像の説明を入力してください
単調な関係を示す、rank(y)とrank(x)のプロット。緑の線は、rank(x)に対するレスカーブフィッティングされた値のランクを示します。

y^

ランク(Y)とX以外を何も表示していない場合、プロットで線を使用することは避けたいと思います。私が見る限り、それらは相関係数を超える値の多くを伝えていません。そしてすでにあなたはその傾向にのみ興味があると述べました。

[ ランク付けされたyのプロットとランク付けされたxのプロットに回帰直線をプロットするのが間違っていることは知りませんが、その解釈は難しいでしょう。]


ありがとう、あなたの答えは良く、よく説明されています。しかし、私は重要な情報を省略しているかもしれないことに気づきました。私が提供した追加情報でそれはまだ有効ですか?今日、仕事用のPCにいるときにグラフが後に続きます。
Sentry

私のアップデートを見て、それが何か価値があると思うかどうか見てください。
Glen_b-2015

はい、それは価値がありますが、より一般的な意味で。私はまた、「間違い」は陰謀を解釈することの難しさに起因することにも同意します。トレンドだけを見せたいと言っていても、特徴からランクを予測したいといつも人々が思っているのではないかと恐れています。
セントリー2015年

プロットを見る---ランクを表示しますが、ランクが基づいているパフォーマンスの独自の測定値はありますか?
Glen_b-2015

はい、そうですが、ここでは使用できません。信じてください。私の研究の焦点は、アルゴリズムをランク付けするフリードマン検定を使用してアルゴリズムを比較することです。パフォーマンス範囲が大きく異なる複数のデータセットがあるため、ここではそれらの比較のみが興味深いです。
Sentry

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.