説明変数と応答変数が回帰前に個別にソートされるとどうなりますか？

302

ポイントのデータセットとします。線形回帰を実行したいが、最初に値と値を互いに独立してソートし、データセット形成する $(X_i,Y_i)$ $n$ $X_i$ $Y_i$ $(X_i,Y_j)$ 。新しいデータセットに回帰の意味のある解釈はありますか？これには名前がありますか？

これはばかげた質問だと思うので、謝罪します。統計の正式な訓練を受けていません。私の考えでは、これはデータを完全に破壊し、回帰は無意味です。しかし、私のマネージャーは、彼がこれを行うと、「ほとんどの場合、より良い回帰」を得ると言います（ここで「より良い」とは、より予測可能という意味です）。私は彼が自分を欺いていると感じています。

編集：あなたの素敵で忍耐強い例のすべてに感謝します。彼に@ RUser4512と@gungの例を示しましたが、彼は頑固なままです。彼はイライラし、私は疲れ果てています。落ち込んでいるように感じます。すぐに他の仕事を探し始めるでしょう。

regression correlation

— 任意のユーザー
ソース

120

しかし、私のマネージャーは、彼がこれを行うと、「ほとんどの場合、より良い回帰」を得ると言います。 神ああ...

— ジェイク・ウェストフォール

56

ない理由確かにありませんあなたは恥ずかしい感じが！

— ジェイクウェストフォール

36

「科学は私たちが望んでいるものです。」-レオ・スペースマン博士。

— Sycorax

52

このアイデアは、私が遭遇した別のアイデアと競合する必要があります。サンプルが小さい場合は、同じデータの複数のコピーでサンプルをまとめてください。

— ニックコックス

47

より良いアイデアがあることを上司に伝える必要があります。実際のデータを使用する代わりに、モデル化が容易になるため、独自のデータを生成するだけです。

— dsaxton

147

上司が「より予測可能」とはどういう意味だと思うかわかりません。多くの人々は、値が低いほど、より良い/より予測的なモデルを意味すると誤って信じています。 それは必ずしも真実ではありません（これは適切な例です）。ただし、両方の変数を事前に個別にソートすると、値が低くなります。一方、予測を同じプロセスで生成された新しいデータと比較することで、モデルの予測精度を評価できます。以下の簡単な例（でコード化）でそれを行います。 $p$ $p$ R

options(digits=3)                       # for cleaner output
set.seed(9149)                          # this makes the example exactly reproducible

B1 = .3
N  = 50                                 # 50 data
x  = rnorm(N, mean=0, sd=1)             # standard normal X
y  = 0 + B1*x + rnorm(N, mean=0, sd=1)  # cor(x, y) = .31
sx = sort(x)                            # sorted independently
sy = sort(y)
cor(x,y)    # [1] 0.309
cor(sx,sy)  # [1] 0.993

model.u = lm(y~x)
model.s = lm(sy~sx)
summary(model.u)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.021      0.139   0.151    0.881
# x              0.340      0.151   2.251    0.029  # significant
summary(model.s)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.162     0.0168    9.68 7.37e-13
# sx             1.094     0.0183   59.86 9.31e-47  # wildly significant

u.error = vector(length=N)              # these will hold the output
s.error = vector(length=N)
for(i in 1:N){
  new.x      = rnorm(1, mean=0, sd=1)   # data generated in exactly the same way
  new.y      = 0 + B1*x + rnorm(N, mean=0, sd=1)
  pred.u     = predict(model.u, newdata=data.frame(x=new.x))
  pred.s     = predict(model.s, newdata=data.frame(x=new.x))
  u.error[i] = abs(pred.u-new.y)        # these are the absolute values of
  s.error[i] = abs(pred.s-new.y)        #  the predictive errors
};  rm(i, new.x, new.y, pred.u, pred.s)
u.s = u.error-s.error                   # negative values means the original
                                        # yielded more accurate predictions
mean(u.error)  # [1] 1.1
mean(s.error)  # [1] 1.98
mean(u.s<0)    # [1] 0.68


windows()
  layout(matrix(1:4, nrow=2, byrow=TRUE))
  plot(x, y,   main="Original data")
  abline(model.u, col="blue")
  plot(sx, sy, main="Sorted data")
  abline(model.s, col="red")
  h.u = hist(u.error, breaks=10, plot=FALSE)
  h.s = hist(s.error, breaks=9,  plot=FALSE)
  plot(h.u, xlim=c(0,5), ylim=c(0,11), main="Histogram of prediction errors",
       xlab="Magnitude of prediction error", col=rgb(0,0,1,1/2))
  plot(h.s, col=rgb(1,0,0,1/4), add=TRUE)
  legend("topright", legend=c("original","sorted"), pch=15, 
         col=c(rgb(0,0,1,1/2),rgb(1,0,0,1/4)))
  dotchart(u.s, color=ifelse(u.s<0, "blue", "red"), lcolor="white",
           main="Difference between predictive errors")
  abline(v=0, col="gray")
  legend("topright", legend=c("u better", "s better"), pch=1, col=c("blue","red"))

左上のプロットは元のデータを示しています。と間には何らかの関係があります（つまり、相関は約です）。右上のプロットは、両方の変数を個別にソートした後のデータの外観を示しています。相関の強さが大幅に増加していることが簡単にわかります（現在は約）。ただし、下のプロットでは、元の（並べ替えられていない）データでトレーニングされたモデルの予測誤差の分布が非常に近いことがわかります。元のデータを使用したモデルの平均絶対予測誤差はですが、ソートされたデータでトレーニングされたモデルの平均絶対予測誤差は $x$ $y$ $.31$ $.99$ $0$ $1.1$ $1.98$ -ほぼ2倍の大きさ。つまり、並べ替えられたデータモデルの予測は、正しい値からはるかに離れています。右下の象限のプロットはドットプロットです。予測誤差と元のデータと並べ替えられたデータの違いを表示します。これにより、シミュレートされた新しい観測ごとに2つの対応する予測を比較できます。左側の青い点は、元のデータが新しい値に近づいたときであり、右側の赤い点は、ソートされたデータがより良い予測をもたらしたときです。の確率で、元のデータでトレーニングされたモデルからより正確な予測がありました。 $y$ $68\%$

並べ替えがこれらの問題を引き起こす程度は、データに存在する線形関係の関数です。と相関関係がすでに場合、ソートは効果がないため、有害ではありません。一方、相関が $x$ $y$ $1.0$ $-1.0$ 、並べ替えにより関係が完全に逆転し、モデルが可能な限り不正確になります。元々データが完全に無相関だった場合、ソートは結果のモデルの予測精度に中間的な、しかしそれでも非常に大きな、有害な影響を及ぼします。データは通常相関していると述べているので、この手順に固有の害に対する何らかの保護を提供していると思われます。それにもかかわらず、最初のソートは間違いなく有害です。これらの可能性を調査するために、異なる値でB1（再現性のために同じシードを使用して）上記のコードを再実行し、出力を調べることができます。

B1 = -5：

cor(x,y)                            # [1] -0.978
summary(model.u)$coefficients[2,4]  # [1]  1.6e-34  # (i.e., the p-value)
summary(model.s)$coefficients[2,4]  # [1]  1.82e-42
mean(u.error)                       # [1]  7.27
mean(s.error)                       # [1] 15.4
mean(u.s<0)                         # [1]  0.98

B1 = 0：

cor(x,y)                            # [1] 0.0385
summary(model.u)$coefficients[2,4]  # [1] 0.791
summary(model.s)$coefficients[2,4]  # [1] 4.42e-36
mean(u.error)                       # [1] 0.908
mean(s.error)                       # [1] 2.12
mean(u.s<0)                         # [1] 0.82

B1 = 5：

cor(x,y)                            # [1] 0.979
summary(model.u)$coefficients[2,4]  # [1] 7.62e-35
summary(model.s)$coefficients[2,4]  # [1] 3e-49
mean(u.error)                       # [1] 7.55
mean(s.error)                       # [1] 6.33
mean(u.s<0)                         # [1] 0.44

— グン
ソース

12

あなたの答えは非常に良いポイントになりますが、恐らくそれができるとすべきほど明確ではありません。普通の人（OPのマネージャーなど）には、最後にそれらのすべてのプロット（Rコードを気にしないでください）が実際に表示し、暗示することは必ずしも明らかではありません。IMO、あなたの答えは実際に1つか2つの説明のパラグラフを使うことができます。

— イルマリカロネン

3

コメントありがとうございます、@ IlmariKaronen。追加するものを提案できますか？コードを可能な限り自明なものにしようと試み、広範囲にコメントしました。しかし、これらのトピックに慣れていない人の目では、これらのものを見ることができなくなる可能性があります。下部にプロットを説明するテキストを追加します。他に何か考えられることがあれば、私に知らせてください。

— グン

13

+1これは、提案された状況に対処する唯一の答えです。2つの変数が既に何らかの正の関連性を示している場合でも、個別にソートされた値を回帰するのはエラーです。他のすべての答えは、関連性がないか、実際には否定的であると仮定しています。それらは良い例ですが、当てはまらないので納得できません。ただし、まだ不足しているのは、ここでシミュレートしたデータのような直感的な直感的な実世界の例であり、ミスの性質が恥ずかしいほど明らかです。

— whuber

8

正統性に左右されず、Rでの割り当てに「=」を使用した場合の+1

— dsaxton

@dsaxton、私が使用し<-、時々、しかし/ R.それはワット慣れていない人のために読みやすくなるようにCV上の私の目標は、可能な擬似コードに近いRのコードを書くことです=代入演算子などのプログラミング言語の中ではかなり普遍的です。

— グン

103

上司を説得したい場合は、シミュレートされたランダムな独立したデータで何が起こっているかを示すことができます。Rの場合： $x,y$

n <- 1000

y<- runif(n)
x <- runif(n)

linearModel <- lm(y ~ x)


x_sorted <- sort(x)
y_sorted <- sort(y)

linearModel_sorted <- lm(y_sorted ~ x_sorted)

par(mfrow = c(2,1))
plot(x,y, main = "Random data")
abline(linearModel,col = "red")


plot(x_sorted,y_sorted, main = "Random, sorted data")
abline(linearModel_sorted,col = "red")

明らかに、ソートされた結果は、より良い回帰を提供します。ただし、データの生成に使用されるプロセス（2つの独立したサンプル）を考えると、一方を使用して他方を予測できる可能性はまったくありません。

— RUser4512
ソース

8

それはほとんどすべてのインターネットの「前と後の」広告に似ています:)

— ティム

これは良い例ですが、ソートする前にデータに正の相関があるため、彼を納得させるとは思われません。並べ替えを行うと、関係が「強化」されます（ただし、関係は正しくありません）。

— 任意のユーザー

17

@arbitraryuser：並べ替えられたデータは、元のデータにどんな相関があったとしても、常に正の（十分な、非負の）相関を示します。とにかく元のデータが常に正の相関関係を持っていることがわかっている場合、それは「偶然に正しい」のですが、それでも、もしそれが存在し、正であることがわかっているのに、なぜ相関関係をチェックする必要があるのでしょうか？マネージャーが実行しているテストは、「通気性のある空気が検出された」と常に言う「空気質検出器」のようなものです。通気性のない場所でそれを使用しない限り、完全に機能します。

— イルマリカロネン

2

@arbitraryuserより説得力のある別の例としては、x = 0：50とy = 0：-50があり、傾き-1の完全な線です。それらを並べ替えると、関係は勾配1の完全な直線に変わります。真実が、変数が完全に反対に変化することであり、完全に一致するという誤った認識に基づいてポリシー処方を行う場合、正確に間違ったことをしています。

— ジョンラウザー

99

あなたの直感は正しいです。入力と出力は観測された関係ではなくランダムにマッピングされているため、独立してソートされたデータには信頼できる意味がありません。

ソートされたデータの回帰は見栄えがよくなる可能性がありますが、コンテキストでは意味がありません。

直観的な例：データセット想定します $(X = age, Y = height)$ 母集団のを。純然たるデータのグラフは、おそらく対数関数またはべき乗関数のように見えます。後期の青年では成長速度が遅く、若い大人やそれ以上では「漸近的に」自分の最大身長に近づきます。

を昇順でソートすると、グラフはほぼ線形になります。したがって、予測機能は、人々が生涯にわたって背が高くなることです。その予測アルゴリズムにはお金をかけません。 $x, y$

— d0rmLife
ソース

25

+ 1--しかし、私は「本質的に」ドロップし、「無意味」を再強調します。

— whuber

12

OPは、データをシャッフルするのではなく、独立してデータをソートすることに注意してください。これは、特定の操作を適用した後に観察される「関係」に関係するため、微妙ですが重要な違いです。

— 枢機

3

x

$x$

y

$y$

12

@amoeba些細なデータセット：平均的なティーンエイジャー、30代半ばのNBAセンター、年配の平均的な女性。予測アルゴリズムをソートした後、最も古いものが最も高いということです。

— d0rmLife

1

@amoebaそのように解釈される方法がわかります。

— d0rmLife

40

$V_i$ $t_i$

$(t_i, V_i)$

(0, 1.0), (1, 0.9), (2, 0.8), (3, 0.7), (4, 0.6), (5, 0.5) .

$(0,1.0), (1,0.9), (2,0.8), (3,0.7), (4,0.6), (5,0.5).$

(0, 0.5), (1, 0.6), (2, 0.7), (3, 0.8), (4, 0.9), (5, 1.0) .

$(0,0.5), (1,0.6), (2,0.7), (3,0.8), (4,0.9), (5,1.0).$ そして、このソートされたデータセットからの結論は、時間が増加するにつれて水の量が増加し、さらに、1リットルの水から始めて、5時間待ってから、1リットル以上の水が得られるということです。それは注目に値しませんか？結論は元のデータが言ったことと反対であるだけでなく、新しい物理学を発見したことも示唆しています！

— ヘロパップ
ソース

5

わかりやすい直感的な例！最後の行を除きます。元のデータを使用すると、時間の経過後に負のボリュームが得られますが、これも同様に新しい物理学です。回帰を実際に推定することはできません。

— ジョンスマ

22

それは本物の芸術であり、自分のやり方の誤りを一部の人々に納得させるには心理学の真の理解が必要です。上記のすべての優れた例に加えて、有用な戦略は、人の信念が自分との矛盾につながることを示すことです。または、このアプローチを試してください。上司がタスクYで実行する方法と、所有する属性Xの量との関係がないなど、上司が強く信じていることを見つけてください。上司自身のアプローチがXとYの強い結びつきをどのように結論付けるかを示してください。政治的/人種的/宗教的信念を活用してください。

顔の無効性で十分だったはずです。なんて頑固な上司。その間、より良い仕事を探しています。幸運を。

— フランク・ハレル
ソース

12

もう一つの例。チョコレートを食べることに関連する変数と、全体的な幸福に関連する変数の2つの変数があるとします。2つのサンプルがあり、データは次のようになります。

\begin{array}{cc} chocolate & no happiness \\ no chocolate & happiness \end{array}

$\begin{array}{cc} \text{chocolate} & \text{no happiness} \\ \text{no chocolate} & \text{happiness} \\ \end{array}$

サンプルに基づいたチョコレートと幸福の関係は何ですか？そして今、列の1つの順序を変更します-この操作の後の関係は何ですか？

$t$ $N$ $t$ 回帰に）。

$i$ $X$ $i$ $Y$ 常に変数の一つが増大した場合、もう一方も増加した場合になりますので、より確実に互いに相関すること、それらをリードし（それらがソートされているので！）。

時々、私たちは実際に例の順序を変更することに興味があることに注意してください、私たちはそうでリサンプリング方法。たとえば、観測を意図的に複数回シャッフルして、データのヌル分布について学習することができます（ペアワイズ関係がない場合のデータの見え方）。次に、実際のデータがランダムよりも優れているかどうかを比較できますシャッフル。上司が行うことはまったく逆です。彼は、意図的に、構造が存在しない人工的な構造を持つように観測を強制し、偽の相関関係を導きます。

— ティム
ソース

8

あなたのマネージャーが理解できるかもしれない簡単な例：

コインYとコインXがあり、それぞれを100回反転するとします。次に、コインX（IV）でヘッドを獲得すると、コインY（DV）でヘッドを獲得できる可能性が高まるかどうかを予測します。

Coin Xの結果がCoin Yの結果に影響を与えることはないため、並べ替えなしでは関係はありません。並べ替えにより、関係はほぼ完璧になります。

別のコインで頭をひっくり返しただけで、コインフリップで頭を獲得する可能性が高いと結論付けるのはどういう意味ですか？

— 穂高
ソース

1

想定している通貨以外の通貨の翻訳が必要です。（それはまったく些細な異議であり、問題を修正するのは簡単ですが、これは国際フォーラムであることを強調する価値がある場合があります。）

— ニックコックス

8

このテクニックは実に素晴らしいです。私は疑うことのないあらゆる種類の関係を見つけています。たとえば、クレームされているパワーボールの宝くじに現れる数字は、実際には同じ日のアップル株の始値と非常に相関していると疑っていなかったでしょう！皆さん、私たちは大きな時間で現金化しようとしています。:)

> powerball_last_number = scan()
1: 69 66 64 53 65 68 63 64 57 69 40 68
13: 
Read 12 items
> #Nov. 18, 14, 11, 7, 4
> #Oct. 31, 28, 24, 21, 17, 14, 10
> #These are powerball dates.  Stock opening prices 
> #are on same or preceding day.
> 
> appl_stock_open = scan()
1: 115.76  115.20 116.26  121.11  123.13 
6: 120.99  116.93  116.70  114.00  111.78
11: 111.29  110.00
13: 
Read 12 items
> hold = lm(appl_stock_open ~ powerball_last_number)
> summary(hold)


Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           112.08555    9.45628  11.853 3.28e-07 ***
powerball_last_number   0.06451    0.15083   0.428    0.678    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.249 on 10 degrees of freedom
Multiple R-squared:  0.01796,   Adjusted R-squared:  -0.08024 
F-statistic: 0.1829 on 1 and 10 DF,  p-value: 0.6779

うーん、重要な関係はないようです。しかし、新しい改善された手法を使用します。

> 
> vastly_improved_regression = lm(sort(appl_stock_open)~sort(powerball_last_number))
> summary(vastly_improved_regression)

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 91.34418    5.36136  17.038 1.02e-08 ***
sort(powerball_last_number)  0.39815    0.08551   4.656    9e-04 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.409 on 10 degrees of freedom
Multiple R-squared:  0.6843,    Adjusted R-squared:  0.6528 
F-statistic: 21.68 on 1 and 10 DF,  p-value: 0.0008998

注：これは、深刻な分析を意図したものではありません。両方を並べ替えると、2つの変数を有意に関連させることができることをマネージャーに示してください。

— アラスカロン
ソース

6

ここにたくさんの良い反例があります。問題の核心に関する段落を追加します。

$X_i$ $Y_i$ $X$ $Y$ $i$ $i$ $X_1$ $Y_1$ $X_2$ $Y_2$ $X$ $Y$ $X_1$ $Y_1$ 。したがって、ソートされた値の相関は、間の接続を測定しません $X_1$ $Y_1$ 。

実際、なぜ「機能する」のかについての段落を追加してみましょう。

$X_a$ $X_b$ $X_a$ $X$ $Y_a$ $X_z$ $X$ $Y_z$ $Y$ $X_a$ $Y_a$ $X_z$ $Y_z$ $X_1$ $Y_1$

— user2640528
ソース

6

実際に、記述されているテスト（X値とY値を個別に並べ替え、一方を他方に対して回帰する）は、（X、Y）が二変量分布から独立したペアとしてサンプリングされると仮定して、何かをテストします。それはあなたのマネージャーがテストしたいもののテストではありません。これは、本質的にQQプロットの線形性をチェックし、Xの周辺分布とYの周辺分布を比較します。特に、Xの密度（f（x））がYの密度（g（y））に関連している場合、「データ」は直線に近くなります。

$f(x) = g((y-a)/b)$ $a$ $b>0$

— アラスカロン
ソース

4

最も明白な反例が、その最も単純な形式の回答の中にまだ存在しないことは奇妙です。

$Y = -X$

$\hat Y \approx X$ （変数がソートされているとき、1の大きい方の値が他のより大きな値に対応しなければならないからです）。

これは、ここで見つけることができるパターンの一種の「直接逆」です。

— KT。
ソース

これが反論となる主張を説明してもらえますか？

— whuberの

入力と出力を個別にソートすることにより、「常により良い回帰を得る」ことができるというマネージャーの主張。

— KT。

R^{2} = 1

$R^2=1$

R^{2}

$R^2$

1

R^{2}

$R^2$

Y = - X

$Y = -X$

3

あなたが正しいです。あなたのマネージャーは「良い」結果を見つけるでしょう！しかし、それらは無意味です。それらを個別にソートすると、2つが同様に増減するため、良いモデルのように見えます。ただし、2つの変数の実際の関係は取り除かれているため、モデルは正しくありません。

— AlxRd
ソース

3

$x \sim x^2$ $x$ $x^2$ $x$

通常、線形回帰はあまり合理的ではありません（例外が存在します。他の回答を参照してください）。しかし、テールの形状とエラーの分布の分布から、類似の分布がどれほど離れているかがわかります。

— ミカエル・ヴェデモ・ヨハンソン
ソース

2

関数が単調な場合、これが実際に良いアイデアである理由は簡単です：

$x_1, x_2,\cdots, x_n$ $x_i<x_{i+1}$ $f:\Re\mapsto\Re$ $y_i = f(x_i) + \varepsilon_i$ $\varepsilon_i$

ε_{i} = f (x_{i + δ}) - f (x_{i})

$\varepsilon_i = f(x_{i+\delta}) - f(x_i)$

δ

$\delta$

{- Δ, - Δ + 1, \dots Δ - 1, Δ}

$\{-\Delta,-\Delta+1, \cdots \Delta-1, \Delta\}$

Δ \in N

$\Delta\in\mathbb{N}$

Δ = 0

$\Delta=0$

Δ = n

$\Delta=n$

$f$ 穏やかな仮定の下が良くなります。

$\varepsilon_i$

PS：どうやら単純な質問が、標準モデルを再考する興味深い新しい方法にどのようにつながるかは驚くべきことです。上司に感謝してください！

— ギヨーム
ソース

1

x_{i + δ}

$x_{i+\delta}$

i + δ < 1

$i+\delta<1$

i + δ > n

$i+\delta>n$

2

半径5の円上にこれらのポイントがあるとします。相関を計算します。

import pandas as pd
s1 = [(-5, 0), (-4, -3), (-4, 3), (-3, -4), (-3, 4), (0, 5), (0, -5), (3, -4), (3, 4), (4, -3), (4, 3), (5, 0)]
df1 = pd.DataFrame(s1, columns=["x", "y"])
print(df1.corr())

   x  y
x  1  0
y  0  1

次に、x値とy値を並べ替えて、再び相関を行います。

s2 = [(-5, -5), (-4, -4), (-4, -4), (-3, -3), (-3, -3), (0, 0), (0, 0), (3, 3), (3, 3), (4, 4), (4, 4), (5, 5)]
df2 = pd.DataFrame(s2, columns=["x", "y"])
print(df2.corr())

   x  y
x  1  1
y  1  1

この操作により、0.0相関のデータセットを1.0相関のデータセットに変更します。それは問題だ。

— ヒュードブラウン
ソース

1

ここで悪魔の擁護者を演じさせてください。多くの答えが、上司の手順が根本的に間違っているという説得力のある事例を作ったと思います。同時に、上司がこの誤った変換によって結果が実際に改善されるのを見たかもしれないことを示す反例も提供します。

この手順がボスのために「働いた」かもしれないことを認めることは、より説得力のある議論を始める可能性があると思います。その後、私たちは-優れた受け入れられた答えのように-私たちが幸運でないときそれがどれほど悪いかを示すことができます。ほとんどの場合です。単独で、上司にそれがどれほど悪いかを示すことは、彼がそれを行うケースを見たかもしれないので、彼を説得しないかもしれない私たちの空想の引数がどこかに欠陥を持っている必要があり、物事を改善し、そして姿を。

私はこのデータをオンラインで見つけましたが、確かに、XとYの独立したソートによって回帰が改善されているようです：a）データは非常に正の相関があり、b）OLSは実際には極端な（高-レバレッジ）外れ値。身長と体重の相関関係には、外れ値が含まれている場合は0.19、外れ値が含まれている場合は0.77、XとYが独立してソートされている場合は0.78です。

x <- read.csv ("https://vincentarelbundock.github.io/Rdatasets/csv/car/Davis.csv", header=TRUE)

plot (weight ~ height, data=x)

lm1 <- lm (weight ~ height, data=x)

xx <- x
xx$weight <- sort (xx$weight)
xx$height <- sort (xx$height)

plot (weight ~ height, data=xx)

lm2 <- lm (weight ~ height, data=xx)

plot (weight ~ height, data=x)
abline (lm1)
abline (lm2, col="red")

plot (x$height, x$weight)
points (xx$height, xx$weight, col="red")

したがって、このデータセットの回帰モデルは、独立した並べ替え（最初のグラフの黒と赤の線）によって改善され、特定のデータセットがあるため、目に見える関係（2番目のグラフの黒と赤）があるように見えます高度に（正の）相関があり、xとyを個別に並べ替えたときに発生するシャッフルよりも、回帰に悪影響を与える適切な種類の外れ値があります。

繰り返しますが、独立した並べ替えは、一般的に賢明なことは何もしませんし、ここでの正しい答えでもありません。ちょうど上司がこのような状況を偶然見たかもしれませんが、それはまさに適切な状況下で働いていました。

— ウェイン
ソース

1

同様の相関係数に到達したのは、まったくの偶然のように見えます。この例は、元のデータと独立してソートされたデータとの関係については何も示していないようです。

— whuberの

2

@whuber：2番目のグラフはどうですか？元のデータが高度に相関している場合、それらを並べ替えると値が少ししかシャッフルされず、基本的に元の関係+/-が維持されると感じています。外れ値が2つあると、状況はさらに再配置されますが、...申し訳ありませんが、それ以上の計算を行うことはできません。

— ウェイン

1

あなたが表現する直感は正しいと思います、ウェイン。質問のロジック（私が解釈すると）は、ソートされた変数の散布図だけに基づいて元のデータについて言えることを懸念しています。答えは、それらの個別の（単変量）分布から推測できるものを絶対に超えないことです。重要な点は、2番目のグラフの赤い点は、表示するデータだけでなく、天文学的に膨大な数のそれらのデータの他の順列とも一致していることです-そして、それらの順列のどれが正しい者。

— whuber

2

@whuberここでの重要な違いは、OPがデータを「完全に破壊する」必要があると言ったことだと思います。受け入れられた答えは、一般にこれがどのように当てはまるかを詳細に示しています。この方法でデータを処理することはできず、結果が意味を成すかどうかはわかりません。しかし、マネージャーが以前に私の（カウンター）例のような例を処理し、この誤った変換が実際に結果を改善することを発見したことも事実です。ですから、マネージャーが根本的に間違っていたということに同意することができますが、かなり幸運になったかもしれません。そして、幸運な場合にはうまくいきます。

— ウェイン

@whuber：回答の概要を、ディスカッションに関連するように編集しました。上司の手順がどのように彼のために働いたのかを認めることは、上司の経験とジャイブするより説得力のある議論の第一歩になると思います。ご検討ください。

— ウェイン

-7

彼が変数をモノトーンに事前選択した場合、実際にはかなり堅牢です。Googleの「不適切な線形モデル」と「Robin Dawes」または「Howard Wainer」。DawesとWainerは、係数を選択する別の方法について話します。John Cookには短いコラム（http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/）があります。

— ビル・レイナー
ソース

4

Cookがそのブログ投稿で説明していることは、xとyを互いに独立してソートし、ソートされた変数に回帰モデルを当てはめることとは異なります。

— グン

4

OPのボスがやっていることは、「FInverse（G（x））によるyhatの予測」ではありません。ここで、FとGはYとXのecdfです。あなたは私の答えのコードで手順を見ることができます。

— グング

4

1. DawesやWainerによる特定の論文への参照を追加できますか？2.それが上司の分類手順にどのように関係しているかを明確にできますか？または、符号が正しく、符号が仮定により正しい限り、係数の値がそれほど重要でない場合、ボスの手順が係数に奇妙な値を与えることはそれほど重要ではないという点ですか？

— ジュホコッカラ

2

1.参照：-RM、Dawes「意思決定における不適切な線形モデルの堅牢な美しさ」アメル。サイコ。34、いいえ。7（1979）：571。-Wainer、H。サイケ。ブル。83、いいえ。2（1976）：213。-Dawes、RM、およびCorrigan、B。「意思決定における線形モデル」。サイケ。Bull。、81 95-106（1974）2. DawesとWainerの両方が、実際のデータと実際の予測問題で、平均からの偏差またはランクの一致によるXからの将来Yの予測が非常にうまく機能することを示しています。傾斜に鈍感です。

— ビルレイナー

2

これらの参照と説明は、コメントに埋もれるよりも、回答の方が良いでしょう。

— Scortchi

-8

私はそれについて考え、順序統計に基づいてここに何らかの構造があると考えました。私はチェックしましたが、マネージャーのmoは思ったほどナッツではないようです

生体信号分析への応用を伴う新しい関連測定としてのオーダー統計相関係数

http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf

順序統計と再配置不等式に基づく新しい相関係数を提案します。提案された係数は、ピアソンの線形係数と、ランクベースの2つの係数、つまりスピアマンのローとケンドールのタウとの間の妥協点を表しています。理論的導出は、私たちの係数が3つの古典的な係数と同じ基本特性を持っていることを示しています。4つのモデルと6つの生体信号に基づく実験的研究は、線形関連性を測定する場合、2つのランクベースの係数よりも優れたパフォーマンスを示すことを示しています。一方、2つのランクベースの係数のような単調な非線形の関連付けを検出できます。広範な統計分析は、新しい係数が優れた耐ノイズ堅牢性、小さな偏り、

— ダニエル
ソース

14

これは質問が説明していることではありません。データが順序統計に置き換えられても、データのペアは以前と同じように接続されたままです。質問は、それらの接続を破壊し、共同配布に関するすべての情報を消去する操作について説明しています。

— whuber

必ずしも。独立したソートが結合確率に関するすべての情報を破壊しないデータセットを構築（または発生）することが可能です。

— ダニエル

5

あなたの主張の明確な例を教えてください。そのようなことが数学的に可能であるかどうかを見るのは難しく、実際にははるかに少ないからです。

— whuber

@whuber：私の新しい答えをご覧ください。あなたの質問を満たす実際のデータセットがあります...私は思う。

— ウェイン