外れ値の影響を受けにくいバージョンの相関係数はありますか?


9

相関係数は次のとおりです。

r=k(xkx¯)(ykyk¯)sxsyn1

標本平均と標本標準偏差は外れ値に敏感です。

同様に、

r=kstuffkn1

一種の平均値のようなものであり、変動の影響を受けにくい変動があるかもしれません。

標本平均は次のとおりです。

x¯=kxkn

標本標準偏差は次のとおりです。

sx=k(xkx¯)2n1

欲しいと思う

中央値:

Median[x]

絶対偏差の中央値:

Median[|xMedian[x]|]

そして相関関係について:

Median[(xMedian[x])(yMedian[y])Median[|xMedian[x]|]Median[|yMedian[y]|]]

私はいくつかの乱数でこれを試しましたが、1より大きい結果が得られましたが、これは間違っているようです。次のRコードを参照してください。

 x<- c(237, 241, 251, 254, 263)
 y<- c(216, 218, 227, 234, 235)

 median.x <- median(x)
 median.y <- median(y)

 mad.x <- median(abs(x - median.x))
 mad.y <- median(abs(y - median.y))

 r <- median((((x - median.x) * (y - median.y)) / (mad.x * mad.y)))

 print(r)
 ## Prints 1.125

 plot(x,y)

1
タイトルを意味しない限り、実際の質問が何であるかわかりませんか?その場合、スピアマン相関は、外れ値の影響を受けにくい相関です。これは基本的に、ランクのピアソン相関です。
アッシュ

7
通常の相関関係のロバストな推定量を求めているか、たまたまロバストである共変動の代替指標を求めていますか?
whuber

回答:


16

ランク相関が欲しいと思います。それらは通常、外れ値に対してより堅牢ですが、直線の関連ではなく単調な関連を測定していることを認識する価値があります。最も一般的に知られているランク相関は、スピアマンの相関です。これは、データのランクのピアソンの積率相関にすぎません。

中央値から各データムの違いを取得することで、あなたが進んでいる道をたどることはしません。たとえば、Xの分布の中央値は、Yの分布の中央値とは完全に異なる点にすることができます。そのため、計算が不安定になる可能性が高くなります。


5

整数と実数などの連続変数はなく離散変数の別の答えは、ケンドールランク相関です。スピアマンランク相関とは対照的に、ケンドール相関は、他のランクからの距離の影響を受けず、観測間のランクが等しいかどうかにのみ影響されます。

ケンドールのτ係数は次のように定義されます。

τ=(number of concordant pairs)(number of discordant pairs)n(n1)/2

ケンドールランク係数は、2つの変数が統計的に依存していると見なすことができるかどうかを確認するための統計的仮説検定の検定統計量としてよく使用されます。このテストは、またはの分布またはの分布に関する仮定に依存しないため、ノンパラメトリックです。XY(X,Y)

しかし、ケンドールの相関関係の関係の扱いには、関係を扱う3つ以上の方法が存在することからわかるように、問題があります。ペアの組み合わせ{(x i、  y i)、(x j、  y j)}は、 x i = x jまたはy i = y jの場合です。引き分けのペアは、一致も不一致もありません。


2

これは、IrishStatによって提案されたデータと問題に対して適切に機能するソリューションです。

Y=ax+b+e

の標本分散を予測分散置き換えるという考え方です。相関式が なるように、相関が過小評価されている理由は外れ値により、推定がします。これに対処するには、回帰の正規分布エラーの仮定を正規混合 Y

σY2=a2σx2+σe2
r=a2σx2a2σx2+σe2
σe2
0.952πσexp(e22σ2)+0.052π3σexp(e218σ2)
私はこの分布をロバストの本、Robust Statisticsでロバスト性に使用するのを最初に見ました。これは「適度に」堅牢で、この例ではうまく機能します。また、異常値がない場合、通常の最小二乗とほぼ同じパラメーター推定値を生成するという特性もあります。したがって、この手順では、データを変更せずに外れ値の影響を暗黙的に削除します。データをフィッティングすると、0.944812の相関推定が生成されます。

あなたの.94は、yとxを逆にしたときに計算した.94に非常に近いです。これは偶然ですか?
IrishStat 2016年

たまたまだと思います。
デイブフルニエ2016年

1

私の答えは、OPが外れ値である場合、OPはまだどのような観測値を認識していないことを前提としています。したがって、私の答えの一部は外れ値の特定を扱います

OLSモデル(対)を構築すると、回帰係数が得られ、続いて相関係数が得られます。「与えられた」ものに挑戦しないことは本質的に危険だと思います。このようにして、回帰係数とその兄弟は、外れ値や異常な値がないことを前提としています。外れ値を特定し、適切な0/1予測子を回帰モデルに追加すると、結果の回帰係数は外れ値/異常に対してロバスト化されます。この回帰係数は、識別された外れ値によって汚染されていないため、元の回帰係数よりも「真実」です。永続的に「破棄」される観測はないことに注意してください。それ'yxxxy値は、異常のポイントに対して暗黙的です。次に、この新しい係数をロバストな変換できます。xr

これの別の見方は、調整された値を取り、元の値をこの「平滑化された値」で置き換え、単純な相関を実行することです。yy

このプロセスは、外れ値が見つからなくなるまで繰り返し実行する必要があります。

この説明が、反対投票者が提案された手順を理解するのに役立つことを願っています。説明を求めてくれたwhuberに感謝します。まだ誰かがこれで助けが必要な場合は、常にデータセットをシミュレートし、特定のxに外れ値を挿入し、推奨される手順に従ってより良い推定値を取得できます。y,xr

これが「正しくない」かのようにこれについてのコメントを歓迎します。数値の反例によってうまくサポートされている理由を知りたいと思います。

簡単な例を提示するように編集:

OPの直接の問題である「外れ値の影響を受けにくいバージョンのrを取得する」という提案された/透過的な方法を説明するには、小さな例で十分です。これは、標準のolといくつかの単純な算術を使用した、従うのが簡単なスクリプトです。B ols回帰係数はr * [sigmay / sigmax)に等しいことを思い出してください。

次の10組の観測を考えてみましょう。

ここに画像の説明を入力してください

そしてグラフィカルに

ここに画像の説明を入力してください

単純な相関係数は0.75で、sigmay = 18.41およびsigmax = .38です。

次に、yとxの間の回帰を計算し、以下を取得します。

ここに画像の説明を入力してください

ここで、36.538 = .75 * [18.41 / .38] = r * [sigmay / sigmax]

actual / fitテーブルは、観測5での異常値の初期推定値を示し、値は32.799です。 ここに画像の説明を入力してください

5番目のポイントを除外すると、次の回帰結果が得られます。

ここに画像の説明を入力してください

これは、x値13.61を使用して173.31の予測を生成します。次に、この予測は、外れ値の洗練された推定が次のようになることを示唆しています。209-173.31 = 35.69。

ここで元の10個の値を復元するが、期間5(209)でのyの値を推定/クレンジングした値173.31で置き換えると、次のようになります。 ここに画像の説明を入力してください

そして ここに画像の説明を入力してください

再計算されたrは、回帰式から値.98を取得します。

r = B * [sigmax / sigmay] .98 = [37.4792] * [.38 / 14.71]

したがって、観測5で識別された外れ値の影響を受けにくいバージョンまたはr(r = .98)ができました。上記で使用されたsigmay(14.71)は、元の汚染されたsigmay(18.41)ではなく、期間5で調整されたyに基づくことに注意してください。推定サイズとサンプルサイズにより、外れ値の影響は大きくなります。私たちが持っていたのは、高度に相関した9組の読み取り値(1-4; 6-10)でしたが、標準rは観測5で異常値によって難読化/歪められました。

これを解決するには、あまり透明ではありませんが、強力なアプローチがあります。これは、TSAYプロシージャhttp://docplayer.net/12080848-Outliers-level-shifts-and-variance-changes-in-time-series.html を使用して1つのパスですべての外れ値を検索して解決します。たとえばここに画像の説明を入力してください、外れ値が36.4481であることを示唆しているため、調整値(片側)は172.5419です。同様の出力は、実際の/クレンジングされたグラフまたはテーブルを生成します。ここに画像の説明を入力してください。Tsayの手順では、実際にはすべてのポイントで「統計的重要性」が反復的にチェックされ、調整が必要な最良のポイントが選択されます。時系列のソリューションは、データに明らかな、または想定される可能性のある時間構造がない場合、すぐに適用できます。私が行ったのは、時系列フィルターの組み込みを抑制することでした。ドメインナレッジを持っているからです。これは、横方向に非縦方向にキャプチャされることを知っていました。


1
相関は、時系列、「パルス」、「レベルシフト」、「季節パルス」とどのように関係しますか?
whuber

4
時間は一般的に回帰に関与しないため、自己相関係数のような単純なものでさえ定義されていません。すべての統計的問題を時系列分析のようにすることはできません。
whuber

4
@ Engr私はこの答えが質問を頼むことを恐れています。これにはいくつかの問題がありますが、最大の問題は、「異常値」を特定する手順を提供しないことです。もう1つは、手順を反復する提案が無効であることです。多くの外れ値検出手順では、データセットが1組のポイントに削減されます。
whuber

4
現在の提案は本質的に危険であると私は恐れています。少なくとも次の理由から(1)外れ値を客観的に特定する方法(2)予想される結果がアドホックな決定に基づくモデルが複雑すぎる(3)手順が収束しないか、うまく収束しない場合があります。初心者は通常、外れ値を過剰に識別し、それらを飼いならす方法として変換や非識別リンク関数をほとんど使用しません。
Nick Cox

3
@Carl、犯罪は意図されていませんが、あなたは怒鳴る気分です、そして私はそうではなく、私はここで解放しようとしています。それが逆であり、それが可能であれば、人々が私を無視しても私は驚かない。変換によってすべての問題が解決されることをほのめかしているように思われる場合は、私がそれを意味するものではないことを確認してください。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.