私の答えは、OPが外れ値である場合、OPはまだどのような観測値を認識していないことを前提としています。したがって、私の答えの一部は外れ値の特定を扱います
OLSモデル(対)を構築すると、回帰係数が得られ、続いて相関係数が得られます。「与えられた」ものに挑戦しないことは本質的に危険だと思います。このようにして、回帰係数とその兄弟は、外れ値や異常な値がないことを前提としています。外れ値を特定し、適切な0/1予測子を回帰モデルに追加すると、結果の回帰係数は外れ値/異常に対してロバスト化されます。この回帰係数は、識別された外れ値によって汚染されていないため、元の回帰係数よりも「真実」です。永続的に「破棄」される観測はないことに注意してください。それ'yxxxy値は、異常のポイントに対して暗黙的です。次に、この新しい係数をロバストな変換できます。xr
これの別の見方は、調整された値を取り、元の値をこの「平滑化された値」で置き換え、単純な相関を実行することです。yy
このプロセスは、外れ値が見つからなくなるまで繰り返し実行する必要があります。
この説明が、反対投票者が提案された手順を理解するのに役立つことを願っています。説明を求めてくれたwhuberに感謝します。まだ誰かがこれで助けが必要な場合は、常にデータセットをシミュレートし、特定のxに外れ値を挿入し、推奨される手順に従ってより良い推定値を取得できます。y,xr
これが「正しくない」かのようにこれについてのコメントを歓迎します。数値の反例によってうまくサポートされている理由を知りたいと思います。
簡単な例を提示するように編集:
OPの直接の問題である「外れ値の影響を受けにくいバージョンのrを取得する」という提案された/透過的な方法を説明するには、小さな例で十分です。これは、標準のolといくつかの単純な算術を使用した、従うのが簡単なスクリプトです。B ols回帰係数はr * [sigmay / sigmax)に等しいことを思い出してください。
次の10組の観測を考えてみましょう。
そしてグラフィカルに
単純な相関係数は0.75で、sigmay = 18.41およびsigmax = .38です。
次に、yとxの間の回帰を計算し、以下を取得します。
ここで、36.538 = .75 * [18.41 / .38] = r * [sigmay / sigmax]
actual / fitテーブルは、観測5での異常値の初期推定値を示し、値は32.799です。
5番目のポイントを除外すると、次の回帰結果が得られます。
これは、x値13.61を使用して173.31の予測を生成します。次に、この予測は、外れ値の洗練された推定が次のようになることを示唆しています。209-173.31 = 35.69。
ここで元の10個の値を復元するが、期間5(209)でのyの値を推定/クレンジングした値173.31で置き換えると、次のようになります。
そして
再計算されたrは、回帰式から値.98を取得します。
r = B * [sigmax / sigmay] .98 = [37.4792] * [.38 / 14.71]
したがって、観測5で識別された外れ値の影響を受けにくいバージョンまたはr(r = .98)ができました。上記で使用されたsigmay(14.71)は、元の汚染されたsigmay(18.41)ではなく、期間5で調整されたyに基づくことに注意してください。推定サイズとサンプルサイズにより、外れ値の影響は大きくなります。私たちが持っていたのは、高度に相関した9組の読み取り値(1-4; 6-10)でしたが、標準rは観測5で異常値によって難読化/歪められました。
これを解決するには、あまり透明ではありませんが、強力なアプローチがあります。これは、TSAYプロシージャhttp://docplayer.net/12080848-Outliers-level-shifts-and-variance-changes-in-time-series.html を使用して1つのパスですべての外れ値を検索して解決します。たとえば、外れ値が36.4481であることを示唆しているため、調整値(片側)は172.5419です。同様の出力は、実際の/クレンジングされたグラフまたはテーブルを生成します。。Tsayの手順では、実際にはすべてのポイントで「統計的重要性」が反復的にチェックされ、調整が必要な最良のポイントが選択されます。時系列のソリューションは、データに明らかな、または想定される可能性のある時間構造がない場合、すぐに適用できます。私が行ったのは、時系列フィルターの組み込みを抑制することでした。ドメインナレッジを持っているからです。これは、横方向に非縦方向にキャプチャされることを知っていました。